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全 程 大 项 目 实战 ， 全 栈 工程 师 的 技术 蓝 宝 书 ， 全 面 涵盖 技术 生态 


大 技术 体系 个 通用 平台 年 项 级 项 目 项 开源 技术 
SpringBoot 微服 务 的 架构 的 架构 设计 的 核心 原理 、 
Hadoop igit. FRA 思想 传承 ， 代码 实战 、 核 
Spark 程 、 经 验 总 核心 代码 实 心 架构 以 及 性 
机 器 学 习 结 ， 并 提供 全 战 技巧 的 手 能 调 优 的 深入 
设计 模式 部 代码 讲解 把 手 传授 ma 
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内 容 简 介 


大 数据 和 人 工 智 能 技术 发 展 正当 时 ,如 何 快速 构建 一 个 高 水 平 的 企业 级 大 数据 平台 是 撰写 本 书 的 

本 书 从 总 体 技术 要 求 出 发 ， 深 入 分 析 了 全 栈 技术 的 各 自 优势 和 应 用 场景 ， 传 授 了 三 十 多 种 主流 技 
术 的 架构 设计 、 技 术 原理 和 集成 方法 。 第 1 章 介绍 企业 级 大 数据 平台 服务 的 总 体 设计 ， 突 出 研究 经 典 
设计 模式 之 美 、 吸 纳 分 布 式 技术 的 精 祷 、 深 耕 微 架 构 的 演变 内 涵 。 第 2 章 一 第 9 章 是 项 目 实战 环节 ， 
介绍 高 并 发 采集 、 灵 活 转发 、 高 可 扩展 海量 存储 、 高 并 发 海量 存储 、 高 可 靠 海 量 存储 、 实 时 计算 、 智 
能 分 析 和 自 定 义 迁 移 等 微服 务 ， 手 把 手 传授 架构 设计 和 核心 代码 ， 让 读者 掌握 商用 微服 务 产品 开发 全 
流程 。 
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我 国 高 度 重 视 大 数据 在 经 济 社会 发 展 中 的 作用 , 十 八 届 五 中 全 会 提出 “实施 国家 大 
数据 战略 "， 国 务 院 印 发 《促进 大 数据 发 展 行动 岗 要 》, 全 面 推进 大 数据 发 展 ， 加 快 建设 
数据 强国 。 大 数据 技术 和 应 用 正 处 于 创新 攻关 期 , 国内 市 场 需求 正 处 于 爆发 期 , 大 数据 
产业 面临 前 所 未 有 的 发 展 机 遇 。 推动 大 数据 平台 建设 和 智能 应 用 发 展 , 加 快 传统 产业 数 
字 化 、 智 能 化 ,是 支撑 国家 战略 的 重要 举措 。 当 前 我 国正 在 推进 供给 侧 结构 性 改革 和 服 
务 型 政府 建设 ， 加 快 实施 “互联 网 +” 行 动 计 划 , 为 大 数据 产业 创造 了 广阔 的 市 场 空间 
是 我 国 大 数据 产业 发 展 的 强大 内 生动 力 。 

我 国 大 数据 产业 具备 了 良好 基础 ， 目 前 正在 内 蒙古 创建 国家 大 数据 综合 试验 区 , 为 
产业 发 展 英 定 了 坚实 的 基础 研发 和 商业 环境 , 但 是 发 展 机 遇 和 挑战 并 存 , 主要 挑战 有 四 
点 : 一 是 大 数据 资源 的 开放 程度 和 大 数据 质量 不 高 ,难以 被 快速 抽取 和 挖 据 利用 ; 二 是 
技术 创新 能 力 有 差距 , 我 国 在 分 布 式 计算 架构 、 大 数据 处 理 等 核心 技术 研究 上 没有 长 时 
间 积累 ,尤其 是 目前 在 大 数据 的 开源 技术 上 没有 太 多 的 国家 影响 力 , 我 们 要 向 谷歌 等 顶 
级 互联 网 公司 学 习 优秀 的 研发 经 验 和 创新 技术 ; 三 是 大 数据 应 用 的 普 适 性 存在 差距 , H 
前 的 大 数据 应 用 在 部 分 垂直 领域 有 了 较 深 的 发 展 , 但 是 绝 大 多 数 领 域 还 是 空白 ; 四 是 大 
数据 人 才 难 以 满足 企业 发 展 需求 , 大 数据 基础 技术 研究 、 产 品 研发 和 业务 应 用 等 各 类 人 
才 短 缺 ， 难 以 满足 发 展 需要 。 

加 强大 数据 技术 和 通用 服务 产品 研发 应 以 行业 垂直 应 用 为 导向 ,推动 产品 和 解决 方 
案 研 发 及 产业 化 ,创新 技术 服务 模式 ,形成 可 以 商用 的 、 完 备 的 技术 产品 体系 。 大 数据 
技术 ,从 产品 体系 研发 上 说 ,包括 大 数据 和 采集、 传输、 存储、 管理、 处理、 分 析 、 应 用 、 
可 视 化 和 安全 等 关键 技术 ; 从 基础 技术 和 技术 引擎 上 说 , 包括 大 规模 异 构 数据 融合 、 集 
群 资源 调度 、 分 布 式 文件 系统 、 通 用 计算 框架 技术 、 流 计算 、 图 计算 等 ;从 前 沿 技术 创 
新 上 讲 ， 包 括 机 器 学 习 、 深 度 学 习 、 认 知 计算 、 区 块 链 和 虚拟 现实 等 。 总 之 ， 打 造 大 数 
据 核心 产品 , 建立 完善 的 大 数据 工具 型 、 平 台 型 和 系统 型 产品 体系 ， 形 成 成 熟 大 数据 解 
决 方案 ， 是 大 数据 产业 化 的 重点 工作 方向 。 

本 书 作 者 是 我 的 研究 生 ， 他 于 2007 年 获得 北京 邮电 大 学 计算 机 专业 硕士 学 位 ， 曾 


任职 于 中 国电 科 , 参与 并 负责 一 体 化 指挥 平台 的 核心 服务 研发 工作 , 历时 2 年 研制 了 全 
军 一 体 化 指挥 作战 平台 ， 在 业内 取得 了 良好 声誉 。2009 年 加 入 华为 技术 ， 担 任 云 平 台 
高 级 技术 专家 和 架构 师 , 主导 设计 了 国内 首 个 企业 公有 云 平台 , 负责 云 计算 和 大 数据 核 
心 技术 研究 工作 ,获得 华为 技术 “金牌 员工 ”和 “总 裁 奖 ”。 现 就 职 于 中 国 移动 研究 院 ， 
担任 资深 技术 专家 和 高 级 技术 经 理 ， 专 注 于 大 平台 建设 和 微 架构 等 核心 技术 研发 。 

本 书 是 他 在 大 数据 产品 和 研发 技术 上 的 十 多 年 研究 成 果 , 总 结 了 通用 大 数据 平台 的 
核心 技术 和 前 沿 架构 ,特别 适合 大 数据 从 业者 , 尤其 适合 高 等 院 校 的 毕业 生 、 在 职 大 数 
据 工 程 师 和 有 志 于 从 事 大 数据 研发 的 工程 师 阅 读 ,也 可 以 作为 工具 类 和 实战 类 技术 手册 
使 用 。 本 书 是 大 数据 全 栈 工 程 师 的 摇篮 。 

本 书 介绍 并 实践 了 大 数据 技术 , 包括 8 个 通用 微服 务 开发 , 是 作者 从 事 架 构 师 工作 
多 年 的 实战 经 验 总 结 。 本 书 精 心 总 结 了 多 种 创新 设计 思想 , 全 面 阐述 了 8 个 通用 服务 引 
攀 的 开发 过 程 ， 涵 盖 了 高 并 发 采集 服务 、 灵 活 转 发 服务 、 高 可 扩展 海量 存储 服务 、 高 并 
发 海量 存储 服务 、 高 可 靠 海量 存储 服务 、 实 时 计算 服务 、 智 能 分 析 服务 和 自 定义 迁移 服 
务 。 每 一 位 读者 都 可 以 借助 这 些微 服务 快速 开发 出 个 性 化 的 平台 和 应 用 。 

“在 科学 的 道路 上 没有 平坦 的 大 道 ， 只 有 不 县 艰险 沿 着 陡峭 山路 向 上 攀登 的 人 ， 才 
有 希望 达到 光辉 的 顶点 。” 和 希望 作者 和 每 一 位 读者 都 能 求 真 务实 ， 努 力 攀登 数据 科学 的 
高 峰 ， 为 新 时 代 的 科技 发 展 贡献 自己 的 智慧 和 力量 ! 


北京 邮电 大 学 博士 生 导师 ” 邓 中 亮 教授 


大 数据 概念 最 早 由 世界 领先 的 咨询 公司 麦肯锡 提出 ,之 后 短 短 几 年 在 全 球 范 围 工业 
界 、 学 术 界 、 商 业界 等 获得 巨大 的 应 用 和 推动 。 在 美国 硅谷 大 量 的 公司 都 投身 其 中 , X 
牌 的 IT 公司 ， 如 谷歌 的 APP Engine、 微 软 的 Azure E; 初创 公司 更 是 层出不穷 。 越 来 
越 多 的 公司 意识 到 大 数据 蕴含 的 商业 机 会 ， 信 息 社会 的 数据 爆炸 也 不 断 促使 了 大 数据 
技术 向 前 飞跃 发 展 ， 然 而 大 数据 对 技术 的 高 要 求 和 数据 本 身 的 私密 性 决定 了 大 数据 不 
是 人 人 都 有 资格 参与 ， 必 须 具 备 相应 的 技术 储备 和 资质 才 可 能 投身 其 中 。 

随 着 全 球 数据 的 爆发 式 增长 ， 大 数据 在 中 国 也 从 政策 层面 备 受 关注 。2014 年 ， 大 
数据 首次 写 入 政府 工作 报告 ,大 数据 逐渐 成 为 各 级 政府 关注 的 热点 ,政府 数据 开放 共享 、 
数据 流通 与 交易 、 利 用 大 数据 保障 和 改善 民生 等 概念 深入 人 心 。2015 年 8 月 31 日, 国 
务 院 印 发 《促进 大 数据 发 展 的 行动 岗 要 》, 成 为 中 国 发 展 大 数据 产业 的 战略 性 指导 文件 。 
作为 我 国 推动 大 数据 发 展 的 战略 性 、 指 导 性 文件 , 充分 体现 了 国家 层面 对 大 数据 发 展 的 
顶层 设计 和 统筹 布局 ， 为 中 国 大 数据 应 用 、 产 业 和 技术 的 发 展 提供 了 行动 指南 。2016 
年 《中 华人 民 共 和 国 国民 经 济 和 社会 发 展 第 十 三 个 五 年 规划 纲要 》 正 式 公布 “十 三 五 
规划 岗 要 对 国家 大 数据 战略 的 阐释 ,成 为 各 级 政府 制订 大 数据 发 展 规划 和 配套 措施 的 重 
要 指导 ， 对 我 国 大 数据 发 展 具 有 深远 的 意义 。2016 年 年 底 ， 工 信和 部 正式 发 布 《大 数据 
产业 发 展 规划 (2016—2020 年 )》， 该 发 展 规划 以 大 数据 产业 发 展 中 的 关键 问题 为 出 发 
点 和 落脚 点 , 明确 了 “十 三 五 ”时 期 大 数据 产业 发 展 的 指导 思想 、 发 展 目 标 、 重 点 任务 、 
重点 工程 及 保障 措施 等 内 容 ， 成 为 大 数据 产业 发 展 的 行动 纲领 。 

大 数据 技术 究竟 包括 哪些 ? 大 数据 技术 是 一 个 交叉 学 科 , 涉及 云 计算 、 物 联网 、 人 
工 智能 等 技术 ， 可 以 在 各 行 各 业 得 到 相关 的 应 用 ， 如 环保 、 医 疗 、 人 口 、 能 源 交通 等 各 
个 领域 ， 可 以 共性 地 概括 为 凡是 涉及 数据 生产 、 采 集 、 存 储 、 加 工 、 分 析 等 行为 的 领 
域 , 包括 数据 资源 建设 、 大 数据 硬 软件 产品 的 开发 等 工程 实现 的 都 包含 在 大 数据 技术 
的 范畴 。 

绕 国家 大 数据 战略 实施 要 求 ， 一 些 国内 知名 的 互联 网 领头 企业 ， 如 华为 、 中 兴 、 
阿里 、 百 度 、 腾 讯 等 软 硬 件 企业 陆续 推出 大 数据 相关 平台 和 产品 。 以 蚂蚁 金 服 、 滴 滴 出 


行 、 新 美 大 、 菜 鸟 网 络 等 为 代表 的 新 兴 独 角 兽 企业 ， 以 及 以 树 根 互 联 、 徐 工 信 息 为 代表 
的 工业 互联 网 平台 服务 提供 商 也 纷纷 布局 大 数据 领域 。 但 是 各 公司 都 实际 面临 大 数据 
领域 的 人 才 奇 缺 的 状况 ,单纯 依靠 高 校 培养 大 数据 人 才 远 远 不 够 ,需要 更 多 的 社会 力 
量 加 入 。 

本 书 作者 是 我 的 多 年 好 友 , 他 带领 团队 完成 了 国内 多 个 国家 级 云 平台 建设 , 获得 了 
诸多 项 目 荣誉 , 是 大 数据 行业 的 知名 专家 。 他 从 大 数据 平台 的 架构 设计 核心 技术 要 求 出 
发 ,全面 阐述 了 构建 一 个 PB 级 规模 数据 运营 能 力 的 云 平台 的 具体 要 求 ， 零 距离 传授 大 
数据 平台 的 三 十 多 种 主流 技术 的 架构 设计 、 技 术 原 理 、 集 成 方法 、 性 能 调 优 ,， 全 面 涵盖 
Spring 生态 、Hadoop 离线 计算 、Spark 实时 计算 、 机 器 学 习 和 设计 模式 五 大 生态 领域 ， 
注重 理论 和 实际 项 目 相 结合 ， 代 码 量 丰 富 、 详 尽 。 

在 当前 大 数据 领域 书籍 偏重 理论 分 析 、 缺 少 实际 项 目 论述 的 背景 下 , 这 本 书 显得 万 
其 实用 ， 不 仅 可 以 成 为 广大 希望 投身 大 数据 领域 的 从 业者 一 本 很 好 的 引路 书籍 和 工具 ， 
而 且 也 可 以 作为 高 等 院 校 相关 专业 学 生 学 习 大 数据 的 参考 资料 。 


国资 委 网 络 安全 专家 ”北京 科技 委 专 家 


大 唐 集 团 科 研 院 网 络 安全 实验 室 主任 = 


大 数据 在 近 几 年 逐渐 步 入 理性 发 展期 -未 来 的 大 数据 发 展会 渗透 到 各 个 垂直 行业 领 
R, 尤其 在 企业 数据 资源 化 、 传 统 行业 智能 化 、 分 析 引 人 擎 产品 化 等 方向 上 迎 来 前 所 未 有 
的 发 展 机 遇 。 与 此 同时 ， 大 数据 的 中 高 端 人 才 缺 乏 严 重 阻 碍 大 数据 产业 发 展 , 尤其 是 掌 
握 技术 、 精 通 管理 、 拥 有 项 目 经 验 的 高 级 工程 师 成 为 企业 炙手可热 的 人 才 。 在 北上 广 深 
杭 等 一 线 城市 , 有 一 年 以 上 工作 经 验 的 大 数据 工程 师 的 月 薪 过 万 , 有 几 年 工作 经 验 的 数 
据 分 析 师 的 年 薪 在 30 万 ~50 万 元 之 间 ， 而 更 顶尖 的 大 数据 技术 人 才 则 是 年 薪 超 百 万 ， 
成 为 各 大 互联 网 和 一 流 企业 争夺 的 对 象 。2018 年 1 月 ,208 所 高 校 、 高 职 院 校 获 批 开设 
“大 数据 技术 与 应 用 ”专业 。 同 时 ， 教 育 部 设立 了 “数据 科学 与 大 数据 技术 ”本 科 专 业 ， 
35 所 大 学 已 获 批 开设 ， 还 有 200 多 所 高 校正 在 申报 。 纵 观 企业 的 大 数据 人 才 需 求 和 高 
校 的 课程 设立 布局 ,应试 者 的 实 操 能 力 和 项 目 经 验 积累 越 来 越 受 到 注重 。 在 专业 技能 上 ， 
重点 需求 体现 在 大 数据 基础 平台 建设 和 应 用 开发 上 , 涵盖 了 高 并 发 采集 、 灵 活 转 发 、 海 
量 存储 、 实 时 计算 、 智 能 分 析 和 高 效 迁 移 等 专业 技能 。 在 个 人 能 力 要 求 上 , 重点 需求 体 
现在 责任 心 、 团 队 合作 能 力 和 解决 问题 能 力 等 方面 。 本 书 重点 讲授 大 数据 全 栈 专业 技能 ， 
但 接 下 来 ， 我 先 谈 谈 大 数据 工程 师 的 个 人 能 力 要 求 和 职业 发 展 规划 。 

我 从 事 计 算 机 领域 研发 16 年 来 ， 主 导 负 责 了 十 多 个 国家 项 目 ， 经 历 了 单机 服务 到 
分 布 式 服务 的 项 目 研发 模式 , 也 实践 了 从 百 万 用 户 到 上 亿 用 户 的 商用 产品 。 但 是 , 在 新 
的 移动 互联 网 和 大 数据 时 代 , 对 工程 师 和 技术 研发 人 员 的 专业 技能 和 个 人 能 力 提出 了 新 
的 要 求 , 单 兵 作 战 模式 无 法 成 就 一 个 商业 产品 , 需要 设计 驱动 和 团队 协同 作战 。 团 队 合 
作 和 协同 作战 一 直 是 我 倡导 的 软件 产品 商用 化 的 管理 模式 ， 我 的 很 多 学 生 在 BAT 等 知 
名 互联 网 公司 担任 技术 主管 , 从 某 种 意义 上 来 说 , 得 益 于 我 很 早 就 对 团队 赋予 了 设计 引 
领 产品 的 创新 思想 。 但 是 , 在 我 的 职业 发 展 中 也 曾 多 次 面临 发 展 瓶 颈 , 我 是 如 何 面 对 挑 
战 和 压力 呢 ? 接 下 来 , 我 想 分 享 一 下 在 软件 研发 职场 上 的 晋升 技巧 和 有 效 工 作 方法 , 让 
大 家 少 走 弯 路 ,多 获 捷径 。 大 数据 工程 师 的 职业 发 展 路 线 大 致 分 儿 个 关键 阶段 : 一 是 上 
升 为 项 目 经 理 阶段 ; 二 是 历练 为 技术 经 理 阶段 ; 三 是 发 展 为 资深 架构 师 阶段 ; 四 是 成 长 
为 首席 技术 官 (CTO ) 阶段 。 

第 一 个 阶段 是 上 升 为 项 目 经 理 , 先 争取 在 项 目 中 担任 技术 骨干 , 并 逐步 主动 承担 和 
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肩负 更 多 更 具 挑 战 的 研发 任务 。 项 目 经 理 职 位 在 一 流 的 互联 网 公司 至 少 需 要 奋斗 3 年 以 
上 ， 如 何 缩短 这 个 非常 漫长 和 艰苦 奋斗 的 过 程 ， 建 议 从 以 下 几 个 方面 做 起 。 

一 是 需要 责任 心 和 主动 性 , 不 仅 要 按时 完成 项 目 经 理 交付 的 开发 任务 ,最 好 还 经 常 
帮助 同事 突破 技术 难题 。 建 议 是 : 一 定 要 为 成 为 技术 专家 而 不 懈 努 力 ， 千 万 别 奔 波 在 做 
一 些 事务 性 的 工作 而 忽略 技术 本 身 ， 软 件 工程 师 的 核心 竞争 力 就 是 拥有 全 面 的 核心 技 
术 ， 并 具备 快速 解决 技术 难题 的 能 力 。 

二 是 要 有 很 强 的 团队 合作 能 力 , 善于 发 现 别人 优点 并 学 会 适当 表扬 , 善于 总 结 自己 
的 研发 成 果 并 学 会 主动 分 享 , 善于 表达 自己 并 学 会 归纳 总 结 。 团队 合作 能 力也 是 需要 不 
断 提升 的 ， 多 听取 别人 的 患 告 而 改变 自己 ， 多 帮助 别人 解决 问题 而 感受 快乐 ， 多 用 心 学 
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三 是 要 学 会 成 就 团队 , 就 是 能 创造 一 个 环境 , 让 每 个 人 都 能 在 其 中 发 挥 出 更 多 的 能 
力 ， 也 就 是 一 种 领导 力 。 我 在 华为 工作 期 间 ， 主 动 承担 了 一 些 技术 维护 工作 ， 经 常 为 大 
家 管理 服务 器 并 配置 环境 ,很 快 被 同事 们 赋予 “大 管家 ”称号 ， 自 己 在 享受 称号 的 同时 
也 得 到 了 领导 的 认可 , 虽然 技术 维护 工作 本 身 不 计算 在 绩效 中 , 但 是 其 对 团队 的 运营 能 
力 提 升 是 举足轻重 的 。 学 会 成 就 团队 是 树立 你 在 团队 中 威望 的 很 重要 品质 。 

四 是 要 提升 汇报 和 总 结 能 力 。 不管 是 民营 企业 还 是 国有 企业 , 汇报 能 力 对 职场 人 都 
是 非常 重要 的 , 究 其 原因 是 汇报 能 体现 一 个 人 的 综合 能 力 , 需要 有 严谨 的 逻辑 思维 和 优 
秀 的 写作 能 力 , 让 领导 在 短 时间 内 掌握 一 个 项 目的 开发 现状 、 存 在 问题 、 解 决 方案 和 创 
新 工作 等 。 更 好 地 规划 工作 、 布 局 工作 、 超 预期 完成 工作 ,并 在 适当 时 候 提出 有 建设 性 
的 宝贵 意见 是 至 关 重 要 的 。 汇 报 工作 的 核心 是 分 析 和 解决 方案 , 领导 都 是 团队 中 最 忙 和 
承担 压力 最 大 的 人 , 比 起 发 现 问 题 来 说 , 他 更 关注 的 是 问题 分 析 和 最 优 解决 方案 。 工程 
师 学 会 多 思考 问题 并 有 针对 性 地 提出 优秀 解决 方案 ， 对 团队 和 个 人 发 展 都 是 至 关 重 要 
的 。 比 如 我 们 的 项 目 因 缺 乏 设 计 而 导致 开发 周期 太 长 ,比如 我 们 的 项 目 因 不 能 定期 和 客 
户 沟通 需求 而 导致 偏离 实际 需求 ， 比 如 我 们 不 能 按期 交付 项 目 成 果 而 导致 领导 不 满意 。 

第 二 个 阶段 是 历练 为 技术 经 理 。 这 个 阶段 对 于 一 般 的 项 目 经 理 而 言 就 是 一 个 项 目 接 
着 一 个 项 目 交付 ,上 升 空间 珊 不 可 及 ,如 果 要 突破 晋升 空间 也 是 有 工作 方法 和 拓展 思路 ， 
建议 从 以 下 几 个 方面 做 起 。 

一 是 把 控 好 项 目的 里 程 碑 并 学 会 提升 管理 水 平 。 项 目 要 有 合理 规划 , 从 项 目 工作 计 
划 到 项 目 任务 分 解 、 从 技术 选 型 到 技术 验证 成 功 、 从 总 体 设 计 规划 到 架构 设计 细 化 、 从 
架构 设计 分 解 到 概要 设计 说 明 、 从 概要 设计 到 详细 设计 落实 、 从 详细 设计 规划 到 核心 代 
码 编写 等 ， 都 是 需要 不 同 阶段 的 技术 评审 和 质量 审查 ， 都 是 需要 分 时 段 交 付 研发 成 果 ， 
都 是 需要 管理 和 技术 能 够 协同 推进 。 

二 是 要 加 强 团 队 建 设 , 更 关注 人 才 的 能 力 和 培养 。 带 团队 就 是 带 人 心 , 在 公司 规则 
之 内 多 考虑 员工 的 合理 想法 , 切 不 能 顾此失彼 地 加 压 。 从 团队 建设 力度 就 可 以 看 出 公司 
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的 发 展 动向 , 如 果 以 人 为 本 重视 长 期 发 展 , 常常 会 考虑 激励 和 培养 员工 , 这 恰恰 也 是 小 
公司 的 努力 方向 , 希望 多 重视 程序 员 的 意见 并 采纳 实施 , 其 实 这 样 做 之 后 最 大 受益 者 也 
是 老板 。 

三 是 要 多 输出 具备 影响 力 的 项 目 成 果 ， 如 商用 产品 、 项 目 奖 项 、 核 心 专利 和 高 水 平 
学 术 论 文 。 任 何 公司 都 是 需要 产品 布局 和 发 展 规划 的 , 尤其 是 短 时 间 内 要 占领 行业 制 高 
点 ,最 好 是 有 核心 竞争 力 的 产品 或 者 专利 来 支撑 公司 在 行业 的 领航 地 位 。 这 个 核心 竞争 
力 就 是 来 源 于 项 目 而 高 于 项 目 本 身 的 拳头 产品 。 我 们 在 研发 中 多 积累 优秀 设计 思想 、 多 
总 结 提炼 核心 算法 、 多 琢磨 技术 难题 的 创新 解决 方案 、 多 讨论 问题 碰撞 思想 火花 、 多 研 
ROK SA WE WH BR. 

四 是 多 读书 , 多 学 习 优 秀 管理 思想 , 领会 分 层 管理 的 领导 艺术 和 对 结果 负责 的 管理 
体制 , 更 不 能 越权 管理 。 技 术 经 理 往往 需要 掌握 分 级 分 层 的 管理 思想 。 如 果 我 们 的 日 党 
工作 都 聚焦 在 具体 事务 上 , 如 果 不 关注 产品 运营 而 拘泥 于 任务 细节 上 , 如 果 没 有 远大 的 
理想 和 成 就 一 番 事 业 的 抱负 , 如 果 没有 带领 团队 打造 核心 产品 的 目标 , 那么 在 行动 和 执 
行 力 上 就 会 出 现 小 格局 、 小 思维 , 最 终 因 为 延误 战机 而 失去 创造 奇迹 的 机 会 , 没有 成 功 
的 团队 就 不 会 有 成 功 的 个 人 ,没有 成 功 的 个 人 谈 何 脱颖而出 的 成 功 技术 领导 人 ? 华为 公 
司 成 功 的 原因 之 一 就 是 层 层 管理 者 都 要 保证 按期 交付 而 不 越权 管理 ,高 层 领导 负责 战略 
和 市 场 ， 中 层 领导 负责 战术 落地 实施 并 跟踪 任务 ， 基 层 人 员 负 责 细 节 实施 和 按期 交付 ， 
一 个 完备 的 权 责 明确 的 分 层 管理 机 制 一 定 会 推动 公司 高 效 的 运营 。 越 权 管理 不 仅 会 导致 
基础 管理 员 失 去 权力 而 懈怠 , 更 会 导致 不 能 细 化 管理 而 延误 进度 , 大 目标 都 是 小 里 程 碑 
积累 完成 的 ， 不 积 味 步 何以 至 千里 。 

第 三 个 阶段 是 发 展 为 资深 架构 师 。 这 个 阶段 需要 在 知名 企业 的 一 线 产品 上 历练 十 年 
以 上 , 架构 师 是 一 个 既 需 要 掌控 整体 ， 又 需要 洞悉 局 部 瓶颈 的 技术 领袖 。 架 构 师 在 整个 
产品 研发 的 生命 周期 中 都 起 着 至 关 重 要 的 作用 , 随 着 开发 进程 的 推进 , 其 职责 或 关注 点 
不 断 地 加 深 。 在 需求 分 析 阶 段 , 软件 架构 师 主要 负责 梳理 非 功能 性 系统 需求 ， 如 软件 的 
高 可 维护 性 、 高 性 能 、 高 复 用 性 、 高 可 靠 性 、 有 效 性 和 可 测试 性 等 ， 另 外， 架构 师 还 要 
经 常 分 析 客 户 不 断 变化 的 需求 ,确认 开发 团队 所 提出 的 设计 ; 在 总 体 设计 阶段 ,架构 师 
的 关注 点 主要 在 开发 团队 的 技术 能 力 和 开发 模式 ; 在 软件 概要 和 详细 设计 阶段 , 架构 师 
负责 对 整个 软件 体系 结构 、 关 键 构件 、 接 口 和 开发 策略 的 设计 ; 在 代码 编写 阶段 ,架构 
师 则 成 为 详细 设计 者 和 代码 编写 者 的 老师 , 并 且 要 经 常 性 地 组 织 一 些 技术 研讨 会 、 技 术 
培训 班 等 来 提升 团队 的 技术 能 力 ; 在 软件 测试 交付 阶段 ,架构 师 跟 踪 关 注 性 能 需求 , 同 
时 开始 为 下 一 版 本 的 产品 是 否 应 该 增加 新 的 功能 模块 进行 决策 。 从 架构 师 的 工作 职责 上 
说 : 一 是 必须 具有 丰富 的 软件 设计 与 研发 经 验 , 并 验证 所 进行 的 设计 是 如 何 映 射 到 实现 
中 去 ; 二 是 要 具有 领导 能 力 与 团队 协作 能 力 , 架构 师 必 须 是 一 个 团队 最 核心 的 技术 领导 
人 ,能 在 关键 时 刻 对 技术 的 选择 做 出 及 时 、 有 效 的 决定 ; 三 是 要 有 不 断 积累 新 技术 和 新 
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架构 的 技术 能 力 , 架构 师 需要 掌握 的 知识 是 多 维度 和 多 方面 的 , 如 精通 各 种 标准 的 通信 
协议 、 网 络 服务 、 面 对 对 象 数据 库 、 关 系数 据 库 或 者 NoSQL 数据 库 、 数 据 处 理 和 分 析 
等 知识 ,另外 ,架构 师 应 与 时 俱 进 地 学 习 新 软件 设计 和 开发 思想 ,并 不 断 探索 更 有 效 的 
新 方法 。 开 发 语言 、 设 计 模 式 和 开发 平台 不 断 地 升级 ,架构 师 需 要 吸收 这 些 新 技术 、 新 
知识 ,并 将 它们 用 于 软件 产品 和 项 目 开 发 工作 中 。 总 的 来 说 , 架构 师 是 一 个 技术 高 端 职 
fr, 技术 经 理 如 何 得 到 这 样 的 机 会 如何 利用 所 掌握 的 技能 进行 应 用 的 合理 构架 ,如 何 
不 断 地 抽象 和 归纳 自己 的 构架 模式 , 如 何 深入 行业 成 为 一 流 公司 的 架构 师 , 确实 需要 不 
断 地 磨炼 。 

第 四 个 阶段 是 成 长 为 公司 CTO。 这 个 阶段 需要 有 敢 为 人 先 的 胆识 、 阅 历 丰富 的 见 
识 、 与 时 俱 进 的 学 识 。 作 为 CTO， 要 想 突破 自己 的 领导 位 置 ， 要 敢于 大 胆 提 出 创新 思 
想 和 超前 理念 来 带领 团队 脱颖而出 ,同一 个 起 跑 线 上 更 需要 与 众 不 同 的 决心 和 勇气 ,好 
的 机 会 永远 是 留 给 有 胆识 的 技术 领导 人 , 切 匆 在 关键 时 刻 瞻 前 顾 后 或 者 犹 穆 不 决 ， 和 否则 
很 难 成 就 一 盔 大 业 ， 最 有 说 服 力 的 例子 就 是 BAT 的 创始 人 ， 他 们 用 超人 的 胆识 抓 住 了 
移动 互联 网 高 速 发 展 契 机 , 各 自打 造 自己 擅长 的 垂直 领域 , 通过 核心 技术 让 本 地 化 和 移 
动 设备 完美 结合 ， 改 变 了 新 时 代 下 的 人 的 消费 和 社交 模式 。 要 想 突破 自己 的 技术 职级 ， 
要 提升 自己 对 行业 信息 和 外 界 发 展 的 见识 , 不 能 守旧 在 自己 的 技术 领域 。 很 多 技术 经 理 
习惯 停留 在 技术 舒适 区 ， 不 愿意 进入 挑战 区 ， 而 且 很 少 参 加 国际 或 者 国内 的 主流 峰会 ， 
很 难 提出 高 瞻 远 瞩 的 创新 性 的 解决 方案 。 作 为 技术 领导 人 ， 要 想 超越 同行 成 为 佼佼 者 ， 
要 静 下 心 来 沉淀 和 历练 ， 只 有 拼 出 来 的 美丽 ， 没 有 等 出 来 的 辉煌 。 

有 了 如 上 的 职业 奋斗 目标 , 我 们 要 脚踏实地 地 开始 走 入 大 数据 研发 工作 中 了 , TE 
是 本 书 章节 安排 。 

e 第 1 章 : 大 数据 平台 服务 总 体 设计 ， 从 总 体 技术 要 求 阐述 微服 务 的 核心 需求 和 

设计 方法 。 

e 第 2 章 : 深入 阐释 “高 并 发 采集 微服 务 ” 的 架构 设计 和 技术 实现 。 

e $33. 着 重 论述 “灵活 转发 微服 务 ” 的 架构 设计 和 技术 实现 。 

e 第 4 章 : 详细 介绍 “高 可 扩展 海量 存储 微服 务 ” 的 架构 设计 和 技术 实现 。 

e ESE: 重点 讲述 “高 并 发 海量 存储 微服 务 ” 的 架构 设计 和 技术 实现 。 

e 第 6 章 : 重点 说 明 “ 高 可 靠 海量 存储 微服 务 ” 的 架构 设计 和 技术 实现 。 

e 第 7 章 : 详细 论述 “实时 计算 微服 务 ” 的 架构 设计 和 技术 实现 。 

e $83: 主要 介绍 “智能 分 析 微 服务 ”的 架构 设计 和 技术 实现 。 

e 第 9 章 : 深入 论述 “ 自 定义 迁移 微服 务 ”的 架构 设计 和 技术 实现 。 

本 书 的 创作 成 果 是 我 多 年 的 架构 经 验 积累 和 核心 技术 提炼 ,从 开始 撰写 到 完成 初稿 
大 概 花 费 了 一 年 多 时 间 , 我 钻研 了 上 百 本 大 数据 技术 专著 , 希望 把 这 些 前 瞻 技 术 运用 于 
项 目 实战 ,让 大 数据 工程 师 们 快速 学 到 真 本 领 ,把 知识 转化 为 科技 生产 力 。 在 此 , RE 
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. 
大 数据 架构 之 道 与 项 目 实 成 了 


架构 之 道 分 享 之 一 : 孙子 兵法 的 《 计 篇 》 论 述 了 战争 之 前 对 战争 进行 战略 顶层 设 
计 问 题 。 孙 子 认为 ， 战 争 是 国家 大 事 ， 一 定 要 认真 研究 、 周 密 筹划 、 慎 重 决策 。《 计 
篇 》 探讨 了 两 个 重点 问题 : 一 是 战争 的 决定 因素 ; 二 是 战争 的 根本 原则 。 这 些 指导 思 
想 也 适用 于 项 目 实战 , 决定 项 目 成 功 的 两 个 重要 因素 : 一 是 项 目的 总 体 规划 和 目标 分 
fF; 二 是 项 目的 架构 设计 和 完备 的 体系 建设 。 


本 章 学 习 目标 
* 掌握 构建 大 数据 平台 的 总 体 技术 要 求 
k 掌握 构建 大 数据 平台 的 微服 务 构建 方法 
k 掌握 8 个 微服 务 架 构 的 设计 思想 和 解决 方案 
k 掌握 构建 微服 务 的 非 功 能 需求 设计 


1.1 平台 架构 设计 的 总 体 技术 要 求 


本 章 是 项 目 实战 前 的 总 体 战 略 设计 篇 , 将 深入 探讨 项 目的 总 体 架构 设计 思想 。 我们 
从 构建 一 个 商用 的 企业 级 大 数据 平台 服务 的 总 体 技术 要 求 出 发 ,详细 阐述 从 核心 需求 到 
设计 方案 的 运筹 过 程 。 

2016 年 是 大 数据 时 代 的 元 年 ，2017 年 是 人 工 智能 时 代 的 元 年 ，2018 全 球 人 工 智 能 
产品 应 用 博览 会 在 苏州 举办 , 更 推进 了 大 数据 和 人 工 智能 在 智能 制造 、 软 硬件 终端 和 服 
务 业 等 领域 的 广泛 应 用 。 大 数据 与 人 工 智能 、 云 计算 、 物 联网 、 区 块 链 等 技术 日 益 融 合 ， 
成 为 全 球 最 热 的 战略 性 技术 , 给 大 数据 从 业者 带 来 了 前 所 未 有 的 发 展 机 遇 , 同时 也 对 大 
数据 工程 师 提出 了 高 标准 的 技能 要 求 。 大 数据 具有 海量 性 、 多 样 性 、 高 速 性 和 易 变 性 等 
特点 ， 映 射 到 大 数据 平台 建设 要 求 ， 不 仅 要 具备 海量 数据 采集 、 并 行 存储 、 灵 活 转发 、 
高 效 调用 和 智能 分 析 的 通用 Paas 服务 能 力 ， 而 且 能 快速 孵化 出 各 种 新 型 的 Saas 应 用 的 
能 力 。 要 实现 这 个 目标 ， 架 构 设计 至 少 要 满足 3 个 总 体 技术 要 求 : 一 是 把 分 布 式 大 数据 
平台 的 基础 数据 服务 能 力 建设 摆 在 首位 , 规划 出 支撑 PB 级 规模 数据 运营 能 力 的 云 平台 
架构 ,运用 经 典 设计 原则 和 设计 模式 的 架构 之 美 ,吸纳 业内 主流 分 布 式 技术 的 思想 精髓 ， 
深耕 主流 平台 服务 模式 到 现代 微 架构 的 演变 内 涵 ; 二 是 用 系统 架构 设计 和 微服 务 建设 思 
想 武装 团队 ,持续 撰写 多 维度 的 架构 蓝图 ， 推动 团队 协同 作战 ; 三 是 围绕 大 数据 全 栈 技 
术 体 系 解决 项 目 实战 中 的 各 类 难题 , 制定 主流 技术 规范 和 设计 标准 , 通过 平台 核心 组 件 

方式 快速 迭代 出 新 型 业务 。 从 设计 要 求 来 讲 ， 大 数据 平台 服务 的 整体 设计 要 具备 全 面 、 
全 局 、 权 衡 的 关键 技术 要 求 , 不 仅 能 全 面 提炼 国内 外 优秀 架构 和 解决 方案 的 精华 , 而 且 
要 理解 分 布 式 技 术 的 底层 设计 思想 ; 不仅 能 全 局 了 解 上 下 游 技 术 生 态 和 业务 结合 的 设计 
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过 程 , 而 且 要 游 思 有 余地 处 理 系统 功能 和 性 能 问题 ; 不 仅 能 权衡 新 技术 引入 和 改造 旧 系 
统 的 成 本 估算 ， 而 且 要 推动 作战 团队 轻松 驾驭 新 技术 。 

1. 第 一 个 总 体 技 术 要 求 

把 分 布 式 大 数据 平台 的 基础 数据 服务 能 力 建设 摆 在 首位 。 规 划 出 支撑 PB 级 规模 数 

运营 能 力 的 创新 云 平台 架构 , 运用 经 典 设计 原则 和 设计 模式 的 架构 之 美 , 吸纳 业内 主 
rió 深耕 主流 平台 服务 模式 到 现代 微 架 构 的 演变 内 涵 。 下 面 分 别 
从 应 用 场景 、 架 构 设 计 、 架 构 演 变 等 S 个 方面 来 详细 阐述 。 

CD 从 应 用 场景 角度 来 考虑 ， 实 现 垂直 行业 数据 运营 方 优 良 资 源 聚 合 ， 促 进 移动 终 
端 和 应 用 服务 融合 , 加 强 线 上 和 线 下 服务 无 颖 对 接 , 为 用 户 提供 全 生命 周期 的 衣食 住 行 
等 服务 ， 并 在 大 数据 产业 中 孵化 有 价值 的 新 型 应 用 ， 促 进 服务 模式 的 创新 。 

(2) 从 应 用 架构 设计 来 考虑 ， 大 系统 拆 分 为 多 个 微服 务 后 ， 每 一 个 微服 务 要 围绕 耦 
合 度 较 高 的 业务 单元 进行 构建 ， 并 建设 自己 的 数据 存储 、 业 务 开发 、 自 动 化 测试 以 及 独 
立 部 署 机 制 。 在 微服 务 之 间 实 现 接口 互联 互通 时 ， 能 灵活 抽取 微服 务 内 部 的 功能 组 件 ， 
实现 分 布 式 事务 等 协作 问题 。 

3) 从 数据 架构 设计 来 考虑 ， 支 持 PB 级 规模 数据 运营 能 力 的 数据 架构 ， 包 括 微 服 
务 引擎 的 数据 库 建设 、 分 布 式 数据 库 和 消息 服务 中 间 件 的 建设 等 , 同时 考虑 可 扩展 的 弹 
性 设计 来 支撑 后 续 系统 升级 迭代 。 

C4) 从 架构 模式 选 型 来 考虑 ,设计 模式 是 具有 大 智慧 的 软件 设计 经 验 的 总 结 ， 是 软 
件 行业 的 《孙子 兵法 》。 设 计 模 式 总 结 了 面向 对 象 设计 中 最 有 价值 的 经 验 ， 并 且 从 可 复 
用 和 可 扩展 角度 描述 了 代码 架构 的 思想 精 藤 。 下 面 从 基本 原理 和 应 用 场景 角度 两 个 方 
面 ， 讲 一 下 六 大 原则 和 三 类 设计 模式 。 

O 一 是 开 闭 原则 (Open Close Principle)， 强 调 对 扩展 开放 和 对 修改 关闭 。 应 用 场 
景 : 当代 码 架 构 在 迭代 演进 时 ， 不 能 去 修改 原 有 的 代码 ， 而 是 抽象 出 父 类 接口 ， 修 改 子 
类 即 可 。 

© 二 是 里 氏 代 换 原则 (Liskov Substitution Principle)， 强 调 父 类 和 子 类 的 关系 。 应 
用 场景 : 在 定义 时 使 用 父 类 对 象 ， 而 在 运行 时 再 关联 子 类 类 型 。 

© 三 是 依赖 倒转 原则 (Dependence Inversion Principle)， 强 调 接口 的 重要 性 ， 接 
就 是 把 一 些 公用 的 方法 和 属性 声明 ,然后 具体 的 业务 逻辑 是 可 以 在 实现 接口 的 具体 类 中 
实现 的 。 当 依赖 对 象 是 接口 时 ， 就 可 以 屏蔽 实现 这 个 接口 的 具体 类 改变 。 应 用 场景 : 通 
过 抽象 (接口 或 抽象 类 ) 使 各 个 类 或 模块 的 实现 彼此 独立 ， 不 互相 影响 ， 实 现 模块 间 的 
FR. 

O 四 是 接口 隔离 原则 (nterface Segregation Principles)， 强 调 接口 的 职责 要 明确 ， 
根据 职责 定义 “ 较 小 ”的 接口 ， 不 要 定义 “高 大 全 ”的 接口 。 也 就 是 说 ， 接 口 要 尽 可 能 
的 职责 单一 ， 暴 露 给 客户 端的 方法 更 具有 “针对 性 ?， 往 往 使 用 多 个 隔离 的 接口 比 使 用 
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单个 接 Apa 应 用 场景 : 在 使 用 接口 时 要 注意 控制 接口 的 粒度 ,接口 定义 的 粒度 不 能 
太 细 ， 也 不 能 太 粗 。 

© 职责 原则 (Single Responsibility Principle)， 强 调 一 个 类 只 负责 一 个 功 
能 领域 中 的 相应 职责 ， 应 用 场景 : 一 个 类 是 和 一 组 相关 性 很 高 的 函数 、 数 据 的 封装 ， 如 
单 例 模式 可 以 降低 内 存 的 开销 。 

O 六 是 迪 米 特 法 则 (Law of Demeter)， 强 调 应 该 尽量 减少 对 象 之 间 的 交互 ， 如 果 
其 中 的 一 个 对 象 需要 调用 另 一 个 对 象 的 某 一 个 方法 , 可 以 通过 第 三 者 转发 这 个 调用 。 应 
场景 : 通过 引入 一 个 合理 的 第 三 者 来 降低 现 有 对 象 之 间 的 耦合 度 。 

在 遵循 六 大 设计 原则 的 战略 思维 之 后 , 又 演变 出 了 23 种 设计 模式 。 这 23 种 设计 模 
式 从 战术 角度 阐述 了 如 何 协 同 作战 部 署 和 兵力 调动 的 问题 , 作战 前 的 兵力 部 署 和 组 合 分 
别 是 创建 型 模式 和 结构 型 模式 ， 作 战 时 的 兵力 调动 就 是 行为 型 模式 。 

DO 创建 型 模式 就 是 作战 部 署 ， 侧 重 类 的 构建 方法 。 主 要 包含 5 种 设计 模式 : 工厂 
方法 模式 (Factory Method Pattem )、 抽 象 工厂 模式 (Abstract Factory Pattern), Witt 
模式 (Builder Pattern), ¡BEA (Prototype Pattern) 和 单 例 模式 (Singleton Pattern). 
其 中 最 常用 的 就 是 工厂 方法 模式 、 抽 象 工厂 模式 和 单 例 模式 。 

O 结构 型 模式 就 是 作战 前 的 兵力 组 合 ， 用 来 处 理 类 或 者 对 象 的 组 合 。 主 要 包含 7 
种 设计 模式 : 适配器 模式 (Adapter Pattern)、 桥 接 模 式 〈Bridge Pattem)、 组 合 模式 
(Composite Pattem)、 装 饰 者 模式 (Decorator Pattermn )、 外 观 模式 (Facade Pattern)、 享 
元 模式 (Flyweight Pattern) 和 代理 模式 (Proxy Pattem)。 其 中 最 常用 的 就 是 适配器 模 
式 、 桥 接 模 式 和 代理 模式 。 

@ 行为 型 模式 就 是 兵力 调动 ， 用 来 描述 类 或 对 象 之 间 如 何 交 互 和 担当 职责 ， 主 要 
包含 11 种 设计 模式 : 责任 链 模式 (Chain of Responsibility Pattern), 命令 模式 (Command 
Pattern)、 解 释 器 模式 (Interpreter Pattermn )、 和 迭代 器 模式 (Iterator Pattem )、 中 介 者 模式 
(Mediator Pattern)、 备 忘 录 模 式 (Memento Pattem)、 观 察 者 模式 (Observer Pattern), 
状态 模式 (State Pattern), HEMBRA (Strategy Pattern)、 模 板 方 法 模式 (Template Method 
Pattern) 和 访问 者 模式 (Visitor Pattem)。 其 中 最 常用 的 就 是 责任 链 模 式 、 和 迭代 器 模式 、 
观察 者 模式 、 状 态 模 式 和 策略 模式 。 

(5) 从 主流 微服 务 发 展 来 考虑 ，Spring 生态 是 上 述 设计 模式 的 最 好 实践 ， 全 部 底层 
源码 是 采用 设计 模式 实现 的 ， 是 一 枝 独 秀 的 企业 级 框架 ， 可 扩展 性 和 可 维护 性 非常 好 。 
Spring 框架 不 仅 是 高 度 可 配置 的 ， 而 且 可 以 集成 多 种 中 间 件 和 视图 。Spring 框架 贯穿 
了 整个 中 间 层 ， 将 Web 层 、Service 层 、DAO EKR PO 无 颖 整合 ， 数 据 服 务 层 用 来 存放 
数据 。 第 一 代 以 SSH (Struts+Spring+Hibernate) 框架 为 代表 ， 在 PC Web 应 用 互联 网 时 
代 非 常 受 追捧 , 但 在 敏捷 开发 模式 下 协同 作战 效率 很 低 , 而 且 用 户 和 数据 规模 巨大 情况 
下 已 经 无 法 满足 运营 需求 。 第 二 代 架 构 是 以 Spring MVC 为 代表 的 单 体 架 构 ， 在 移动 互 
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联网 时 代 非 常 主流 ，Spring MVC 分 离 了 控制 器 、 模 型 对 象 、 分 派 器 以 及 处 理 程序 对 象 
的 角色 ， 这 种 分 离 让 它们 更 容易 进行 定制 。 第 三 代 架 构 是 Spring Cloud 和 Spring Boot 
微 架 构 ， 强 调 Spring Cloud 分 布 式 的 五 大 能 力 ， 包 括 服 务 器 的 注册 与 发 现 (Netflix 
Eureka). 客户 端 负 载 均衡 (Netflix Ribbon)、 断 路 器 (Netflix Hystrix), 服务 网 关 (Netflix 
Zuui) 和 分 布 式 配 置 (Spring Cloud Config) 在 后 面 要 详细 阐述 。 

2. 第 二 个 总 体 技术 要 求 

用 系统 架构 设计 和 微服 务 建设 思想 武装 团队 , 持续 撰写 多 维度 的 架构 蓝图 , 推动 团 
队 协 同 作战 。 架 构 师 不 仅 要 具备 大 型 云 平 台 架 构 的 实战 经 验 ,更 要 有 大 智慧 和 战略 思维 ， 
通过 蓝图 来 推动 和 管理 好 每 一 个 产品 的 全 生命 周期 。 我 从 事 架 构 师 十 多 年 以 来 , 带领 团 
队 实 践 了 二 十 多 个 大 型 项 目 , 至 今 还 在 全 力 以 赴 地 奋斗 在 开发 一 线 ， 从 未 脱离 核心 代码 
实战 ， 因 为 真理 源 于 实践 。 我 归纳 总 结 了 一 些 心得 ， 分 享 给 即将 肩负 重任 的 工程 师 们 ， 
相信 会 让 大 家 受益 菲 浅 。 一 般 来 说 , 一 个 项 目 成 功 的 决定 因素 有 两 点 : 一 是 制订 了 具有 
前 瞻 性 的 、 分 布 式 架构 设计 蓝图 ,着重 考虑 系统 具备 高 可 扩展 和 高 可 靠 能 力 ， 并 保证 项 
目 在 预算 范围 内 按期 交付 ; 二 是 架构 师 严格 按照 架构 蓝图 来 推动 协同 作战 , 通过 蓝图 来 
量化 工作 内 容 , 保证 工程 师 能 在 关键 的 交付 点 完成 里 程 碑 任务 。 每 一 个 优秀 产品 在 上 线 
之 前 都 需要 架构 师 全 力 以 赴 地 运筹 肉 晶 ， 灵 活 运用 大 智慧 和 架构 蓝图 来 协作 管理 。《 孙 
子 兵 法 》 是 中 国 古 代 军 事 思 想 史 上 现存 最 重要 的 兵 学 著作 , 其 中 很 多 优秀 作战 思想 都 可 
以 运用 在 军事 、 商 业 、 职 场 、 项 目 等 诸多 领域 ， 是 每 一 位 资深 架构 师 的 必修 课 。 下 面 借 
鉴 《 孙 子 兵法 》 来 分 析 项 目 成 功 的 关键 因素 。 

(1) 项 目的 架构 蓝图 。 这 是 对 架构 师 技术 能 力 和 作战 经 验 的 考量 。 按 照 我 的 项 目 经 
验 ， 技 术 架 构 蓝图 主要 包括 开发 架构 图 、 逻 辑 架 构图 、 运 行 架构 图 、 部 署 架 构图 、 数 据 
架构 图 等 , 架构 师 着 重 关注 架构 设计 、 业 务 分 解 、 组 件 设计 、 组 件 组 合 、 系 统 交 互 设计 、 
性 能 调 优 和 技术 攻关 等 ， 产品 经 理 负责 系统 交互 设计 ， 研 发 经 理 负责 项 目 任务 分 解 ， 高 
级 工程 师 负责 组 件 实现 , 团队 成 员 按照 架构 蓝图 来 分 工 协作 , 从 而 形成 有 效 的 管理 体制 。 
《孙子 兵法 》 在 《 势 篇 》 论 述 了 如 何 灵 活 地 使 用 自己 团队 的 军事 力量 ， 就 是 要 建立 有 效 
的 军队 管理 组 织 结构 ， 建 立 有 效 的 军队 命令 传达 体系 。 

(2) 推动 协同 作战 。《 孙 子 兵 法 》 的 《作战 篇 》 的 “作战 ”就 是 始 战 和 战争 准备 ， 
讲 的 是 战争 要 有 物质 基础 与 后 勤 保障 , 战争 会 带 来 兵 资 巨 耗 , 尤其 是 旷日持久 战 会 造成 
兵 久 国 疲 ， 产 生 内 忧 外 患 ， 危 害 国 家 的 安全 ， 因 此 战争 应 该 “ 速 胜 ”。 完 成 一 个 项 目 就 
像 打 一 场 战 争 ， 对 项 目 要 有 整体 规划 和 里 程 碑 管 控 , 不 断 地 输出 阶段 性 项 目 成 果 , 不 断 
地 发 布 产 品 小 版 本 ， 不 断 地 让 客户 体验 产品 并 反馈 问题 ， 不 断 地 让 领导 看 到 项 目 进展 ， 
不 断 地 让 工程 师 们 产生 荣誉 感 和 认可 感 。 打 持久 战 势必 会 影响 团队 士气 , 甚至 会 让 团队 、 
领导 、 客 户 等 项 目 干系 人 失去 信心 。 
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3. 第 三 个 总 体 技术 要 求 

围绕 大 数据 全 栈 技术 体系 解决 项 目 实战 中 的 各 类 难题 , 制定 主流 技术 规范 和 设计 标 
TE, 通过 平台 核心 组 件 方式 快速 迭代 出 新 型 业务 。 对 于 设计 规范 的 重要 性 , 我 们 不 妨 用 
《孙子 兵法 》 的 大 智慧 来 分 析 一 下 。《 孙 子 兵法 》 在 《 谋 攻 篇 》 提 出 “不 战 而 届 人 之 兵 ” 
的 军事 思想 ， 首 先 说 “战争 是 政治 的 延续 ”的 思想 ， 然 后 提出 “上 兵 伐 谋 ， 其 次 伐 交 ， 
其 次 伐 兵 ， 其 次 攻 城 ”的 思想 ， 从 研发 角度 理解 ， 就 是 借助 商用 中 间 件 的 核心 思想 和 接 
口 能 力 ,来 提升 平台 的 技术 性 能 指标 , 其 次 再 借助 设计 模式 来 强化 自己 的 业务 分 层 设计 ， 
最 后 自主 研发 满足 需求 的 业务 系统 。 大 数据 发 展 正 当时 , 实现 各 垂直 行业 数据 运营 方 优 
良 资源 聚合 ， 移 动 终端 和 应 用 服务 融合 ， 线 上 和 线 下 服务 无 颖 对 接 ， 促 进 服 务 模式 的 创 
新 ， 对 研发 人 员 来 说 是 很 大 的 挑战 和 壁垒 。 从 项 目 交 付 成 果 来 看 ,这 不 仅 要 交付 一 个 对 
来 自 多 源 异 构 (时 间 序 列 ) 数据 进行 采集 、 存 储 、 转 发 、 计 算 、 迁 移 、 分 析 等 提供 各 种 
公共 能 力 的 系统 群 , 也 要 为 用 户 和 各 机 构 提供 安全 可 靠 交互 的 控制 中 心 , 还 要 包括 大 数 
据 平台 的 开放 性 、 模 块 化 、 灵 活性 和 可 扩展 性 等 非 功能 需求 。 

接 下 来 , 针对 上 述 3 个 总 体 技术 要 求 , 我 们 继承 设计 模式 的 架构 之 美 , 吸纳 分 布 式 
技术 精髓 ， 实 战 主流 微 架构 设计 方案 。 


12 ”微服 务 引 擎 的 可 扩展 性 设计 


微服 务 是 系统 架构 的 一 种 设计 风格 ， 它 是 把 一 个 独立 的 大 系统 拆 分 成 多 个 小 服务 ， 
让 这 些小 服务 都 在 各 自 的 进程 中 运行 ， 服 务 之 间 通 过 安全 的 Http Restful 接口 进行 协同 
通信 。 微 服务 的 产生 是 为 解决 一 个 单 体 应 用 在 庞大 业务 发 展 后 导致 的 不 可 维护 性 ， 当 开 
发 团队 在 敏捷 开发 和 部 署 中 举步维艰 时 ,最 主要 问题 就 是 这 个 应 用 太 复 杂 ， 以 至 于 任何 
单个 开发 者 都 不 可 能 独自 承担 。 总 结 单 体 应 用 的 主要 存在 问题 : 一 是 在 不 同 模块 发 生 资 
源 冲突 时 ， 扩 展 非常 困难 ;二 是 系统 可 靠 性 问题 ， 因 为 所 有 模块 都 运行 在 一 个 进程 中 
任何 一 个 模块 发 生 类 似 内 存 泄漏 的 问题 , 将 会 有 可 能 弄 震 整个 进程 ; 三 是 系统 升级 时 依 
赖 包 的 版 本 冲突 问题 , 不 同 中 间 件 直接 引用 的 依赖 包 都 是 需要 版 本 支撑 的 , 很 容易 导致 
相互 冲突 而 不 可 控 。 

目前 知名 互联 网 公司 都 是 通过 采用 微服 务 架构 解决 了 上 述 问 题 ,其 思路 不 是 开发 一 
个 巨大 的 单 体式 应 用 ,而 是 将 应 用 分 解 为 小 的 微服 务 。 一 个 微服 务 一 般 完 成 某 个 指定 的 
任务 或 者 功能 , 每 一 个 微服 务 都 有 自己 的 业务 逻辑 和 适配器 。 一 些微 服务 还 会 发 布 API 
给 其 他 微服 务 和 应 用 客户 端 使 用 。 每 一 个 应 用 功能 区 都 使 用 微服 务 完 成 ,和 以 往 的 多 个 
服务 共享 一 个 数据 库 不 一 样 ， 微 服务 架构 要 求 每 个 服务 都 有 自己 的 数据 库 。 总 结 一 下 ， 
微服 务 发 展 多 年 以 来 ， 它 的 架构 模式 有 诸多 好 处 。 具 体 说 明 如 下 : 
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DM 分 解 庞 大 单 体 应 用 来 解决 多 个 服务 之 间 的 相互 依赖 。 在 功能 不 变 的 情况 下 , 应 
用 被 分 解 为 多 个 可 管理 的 分 支 或 服务 。 每 个 服务 都 通过 消息 通信 机 制 来 发 生 交互 。 微服 
务 架 构 模 式 提供 了 模块 化 和 产品 化 的 平台 级 解决 方案 。 

(2) 更 适合 敏捷 开发 和 小 团队 协同 作战 。 开 发 者 可 以 自由 选择 开发 技术 并 提供 API 
服务 。 开 发 者 不 需要 被 迫使 用 某 项 目 指定 好 的 技术 工具 。 

G) 实现 了 独立 的 部 署 。 开 发 者 不 再 需要 协调 其 他 服务 部 署 对 本 服务 的 影响 。 这 种 
改变 可 以 加 快 部 署 速度 ， 微 服务 架构 模式 使 得 持续 化 部 署 成 为 可 能 。 

(4) 让 每 个 服务 实现 高 可 扩展 。 开 发 者 根据 用 户 规模 来 部 署 集群 服务 。 

针对 上 述 多 个 好 处 ， 我 们 从 系统 整体 技术 能 力 出 发 ， 提 出 物 联网 大 数据 平台 的 8 
个 通用 微服 务 的 技术 要 求 ， 包 括 大 数据 的 高 并 发 采集 服务 、 灵 活 转发 服务 、 高 可 扩 
展 海量 存储 服务 、 高 并 发 海量 存储 服务 、 高 可 靠 海量 存储 服务 、 自 定义 迁移 服务 、 基 
于 机 器 学 习 的 智能 分 析 服 务 和 基于 Spark 生态 的 实时 计算 服务 ， 有 具体 如 下 ， 如 图 1-1 
所 示 。 


物 联网 大 数控 平台 Do aru 


图 1-1 大 数据 实时 计算 服务 引擎 的 模块 化 设计 
COD 高 并 发 采集 服务 : 支持 多 种 移动 终端 和 物 联 网 数据 的 可 扩展 接 入 ,并 具备 大 
规模 接 入 并 发 处 理 能 力 。 能 够 兼容 主流 行业 通用 的 可 扩展 协议 和 规范 ， 并 采用 高 可 
靠 的 集群 或 者 负载 均衡 技术 框架 来 解决 。 如 引入 Mina 或 者 Netty 技术 框架 后 适 配 多 
种 移动 终端 接 入 。 标 准 化 接 入 包括 常用 的 字 节 流 、 文 件 、JSON 等 数据 格式 属于 主流 
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的 数据 交换 格式 。 

(2) 灵活 转发 服务 : 按照 分 析 应 用 需求 ， 转 发 不 同 的 数据 类 型 和 数据 格式 ， 交 互 方 
式 之 一 是 主流 的 消息 中 间 件 MQ 或 者 Kafka, 保证 高 效 的 转发 并 转换 数据 给 数据 服务 运 
营 方 。 交 互 的 方式 之 二 是 Restful 方式 ， 保 证 数据 可 以 按照 协议 规范 进行 安全 可 靠 的 数 
据 转发 和 传输 。 

(3) 高 可 扩展 海量 存储 服务 : 支持 数据 类 型 和 数据 表 可 扩展 ， 对 物 联 网 大 数据 进行 
海量 存储 和 计算 ， 尤 其 适用 于 初创 公司 在 百 万 级 用 户 之 内 的 大 数据 平台 。 

(4) 高 并 发 海量 存储 服务 : 支持 数据 类 型 和 数据 量 的 高 速 增长 , 对 物 联 网 大 数据 进 
行 批 处 理 ， 适 合 构建 PB 级 数据 量 和 千 万 级 用 户 量 的 云 平台 。 

(5) 高 可 靠 海 量 存储 服务 : 支持 物 联网 多 源 异 构 数据 的 统一 高 效 和 海量 存储 ， 并 提 
供 易 于 扩展 的 行业 数据 的 离线 计算 和 批 处 理 架构 , 适合 构建 ZB 级 数据 量 和 亿 级 用 户 量 
的 分 布 式 大 平台 。 

(6) 自 定义 迁移 服务 : 支持 对 物 联网 大 数据 的 整体 迁移 和 同步 ， 通 过 数据 转换 和 数 
据 迁 移 工具 对 不 同 数据 类 型 和 数据 格式 进行 整体 迁移 ， 实 现 数据 集 的 自 定义 生成 。 

CD 基于 机 器 学 习 的 智能 分 析 服务 : 支持 安全 高 效 的 机 器 学 习 算法 ， 通 过 支持 
分 布 式 分 类 、 聚 类 、 关 联 规则 等 算法 ， 为 用 户 和 物 联网 机 构 提 供 个 性 化 的 智能 分 析 
服务 。 

(8) 基于 Spark 生态 的 实时 计算 服务 : 支持 对 物 联网 大 数据 智能 分 析 能 力 ， 通 过 企 
业 级 中 间 件 服务 框架 提供 安全 可 靠 接口 ， 实 现 数据 实时 统计 和 计算 。 
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接 下 来 ， 我 们 构建 一 个 微服 务 中 心 ， 可 以 把 8 个 微服 务 进 行 互联 互通 ， 构 建 一 个 
大 数据 服务 平台 。Spring Cloud 是 我 们 主流 的 微 架构 ， 其 中 Eureka 是 Spring Cloud 
Netflix 微服 务 一 种 服务 注册 套件 ， 通 常 与 Spring Boot 搭建 的 微服 务 搭配 使 用 ， 主 要 
是 作为 微服 务 之 间 的 消息 中 间 件 。Eureka 分 为 客户 端 与 服务 端 两 部 分 。 服 务 端 就 是 服 
务 注册 中 心 ， 主 要 用 于 微服 务 的 注册 和 发 现 ， 其 功能 和 zookeeper 类 似 。Eureka 可 以 
以 集群 的 方式 运行 ， 这 样 就 充分 保证 了 服务 的 高 可 用 性 。 对 于 客户 端 而 言 ， 主 要 分 为 
服务 生产 者 和 消费 者 。 服 务 的 生产 者 主要 是 向 Eureka 注册 服务 。 服 务 的 消费 者 主要 
是 周期 性 查询 注册 中 心 ， 发 现 新 服务 并 进行 消费 。 所 以 ， 在 启动 微服 务 时 ， 必 须 先 启 
动 Eureka。 在 本 书 的 第 2 章 和 第 3 章 中 ， 两 个 微服 务 之 间 的 通信 就 采用 了 Eureka 作 
为 服务 通信 的 桥梁 。 
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(1) 构建 Spring Cloud 微服 务 中 心 的 代码 工程 架构 ， 如 图 1-2 所 示 。 
[w xa 
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图 1-2 大 数据 微服 务 中 心 的 代码 架构 设计 
(2) 添加 工程 所 需要 用 到 的 依赖 ， 在 pom.xml 文件 中 添加 如 下 代码 : 


<?xml version="1.0" encoding="UTF-8"?> 

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:// 
www.w3.org/2001/XMLSchema-instance" 

xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven. apache. 
org/xsd/maven-4.0.0.xsd"> 

<modelVersion>4.0.0</modelVersion> 

<groupId>com. forezp</groupId> 

<artifactId>eureka-server</artifactId> 

<version>0.0.1-SNAPSHOT</version> 

<packaging>jar</packaging> 

<name>eureka-server</name> 

<description>Demo project for Spring Boot</description> 


<parent> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-starter-parent</artifactId> 
<version>1.5.2.RELEASE</version> 
<relativePath/><!-- lookup parent from repository --> 
</parent> 
<properties> 
<project .build.sourceEncoding>UTF-8</project .build.sourceEncoding> 
<project . reporting. outputEncoding>UTF-8</project.reporting. 
outputEncoding> 
<java.version>1.8</java.version> 
</properties> 
<dependencies> 
<dependency> 
<groupId>org.springframework.cloud</groupId> 
<artifactId>spring-cloud-starter-eureka-server</artifactId> 
</dependency> 


(3) 编写 服务 核心 配置 文件 application.yml， 主 要 用 于 指定 该 服务 的 路 径 、 一 些 常 
用 配置 参数 等 。 相 关 配 置 如 下 : 
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坦 实例 是 否 在 eureka 服务 器 上 注册 自己 的 信息 以 供 其 他 服务 发 现 , 默认 为 true 
registerWithEureka:false 
# 此 客户 端 是 否 获 取 eureka 服务 器 注册 表 上 的 注册 信息 , RUN true 
fetchRegistry:false 
serviceUrl: 
defaultZone:http://$(eureka.instance.hostname):$(server.port)/ 
eureka/ 


(4) 编 写 微服 务 启动 类 EurekaServerApplication, 主要 通过 注解 @EnableEurekaServer 
声明 该 服务 是 注册 中 心 。 代 码 实现 如 下 : 


package com.cloud; 


import org.springframework.boot.SpringApplication; 
import org.springframework.boot.autoconfigure.SpringBootApplication; 
import org.springframework.cloud.netflix.eureka.server.EnableEurekaServer; 


@EnableEurekaServer 
@springBootApplication 
public class EurekaServerApplication { 
public static void main(String[] args) { 
SpringApplication. run (EurekaServerApplication.class, args) ; 
} 
} 


(5) 启动 服务 ， 在 启动 类 EurekaServerApplication 通过 main 方法 运行 ， 在 浏览 器 
中 输入 http://S {eureka.instance.hostname}:$ {server.port}/eureka/ 会 看 到 注册 中 心 基本 信息 
以 及 服务 信息 ， 结 果 如 图 1-3 所 示 。 
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System Status 


Environment test Current time 2018-11-20716:33:35 +0800 
Data center default Uptime 00:00 

Lease expiration enabled false 

Renews threshold 1 

Renews (last min) o 
DS Replicas 


Instances currently registered with Eureka 
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面 对 用 户 量 上 千 倍 和 数据 量 上 万 倍 的 增长 速度 , 如 何 保证 物 联网 大 数据 在 比较 快 的 
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me 
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时 间 内 进入 平台 ? 应 对 用 户 量 的 增长 , 如 何在 规定 的 时 间 内 完成 采集 ? 在 硬件 设备 处 理 
能 力 之 外 ， 让 数据 更 快 地 汇聚 到 平台 是 核心 需求 。 具 体 考虑 如 下 。 

CD 满足 采集 来 自 不 同 的 厂家 、 移 动 设 备 类 型 、 传 输 协议 的 行业 数据 的 需求 。 我们 
在 接口 设计 中 完全 可 以 针对 不 同 设备 和 传输 协议 来 设计 ， 就 是 借用 “分 而 治之 ”的 用 兵 
之 道 ,“ 分 而 治之 ”就 是 把 一 个 复杂 的 算法 问题 按 一 定 的 “分 解 ”方法 分 为 等 价 的 规模 
较 小 的 若干 部 分 ,然后 逐个 解决 ,分 别 找 出 各 部 分 的 解 ， 把 各 部 分 的 解 组 成 整个 问题 的 
ff, 这 种 朴素 的 思想 也 完全 适合 于 技术 设计 , 软件 的 体系 结构 设计 、 模 块 化 设计 都 是 分 
而 治之 的 具体 表现 。 其 中 策略 模式 就 是 这 个 思想 的 集中 体现 。 策略 模式 定义 了 一 个 公共 
接口 ， 各 种 不 同 的 算法 以 不 同 的 方式 实现 这 个 接口 。 

(2) 满足 高 并 发 需求 。 需 要 借助 消息 队列 、 缓 存 、 分 布 式 处 理 、 集 群 、 负 载 均衡 等 
核心 技术 ， 实 现 数据 的 高 可 靠 、 高 并 发 处 理 ， 有 效 降低 端 到 端的 数据 传输 时 延 ， 提 升 用 
户 体 验 。 借 用 “ 因 粮 于 敌 ” 的 思想 。“ 因 粮 于 敌 ” 的 精髓 是 取 之 于 敌 ， 胜 之 于 敌 ， 以 战 
FR, 动态 共存 。 我 们 常 说 的 借用 对 手 优势 发 展 自己 并 整合 资源 就 是 这 个 思想 的 集中 体 
现 。 正 式 商 用 的 系统 需要 借助 高 性 能 中 间 件 来 并 行 处 理 数据 ， 达 到 不 丢 包 下 的 低 延 迟 。 
我 们 采用 商用 的 Mina 负载 均衡 技术 框架 , 可 以 支持 多 种 设备 和 传输 协议 (HTTP、TCP、 
UDP) 的 数据 接 入 ， 可 以 满足 每 秒 上 万 并 发 数 的 数据 接 入 需求 。 针 对 以 上 的 核心 需求 
分 析 和 技术 定位 ， 我 们 可 以 借助 第 三 方 中 间 件 和 采用 设计 模式 实现 个 性 化 业务 ， 来 解 
决 接口 的 集中 化 、 可 扩展 性 、 灵 活性 等 问题 ， 借 助 Mina 的 Socket NIO 技术 魅力 ， 适 
配 高 并 发 的 数据 接口 IOFilterAdapter 进行 反 序列 化 编码 ， 适 配 高 并 发 的 数据 接口 
IOHandlerAdapter 进行 业务 处 理 。 
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灵活 转发 能 力 的 总 体 设 计 中 要 考虑 接口 和 消息 中 间 件 两 种 方式 , 其 中 消息 中 间 件 可 
支撑 千 万 级 用 户 规模 的 消息 并 发 ， 适 用 于 物 联网 、 车 联网 、 移 动 Apps、 互 动 直播 等 领 
域 。 它 的 应 用 场景 包括 : 一 是 在 传统 的 系统 架构 ， 用 户 从 注册 到 跳 转 成 功 页 面 ， 中 间 需 
要 等 待 系统 接口 返回 数据 。 这 不 仅 影响 系统 响应 时 间 ， 降 低 了 CPU 吞吐 量 ， 同 时 还 影 
响 了 用 户 的 体验 。 二 是 通过 消息 中 间 件 实现 业务 逻辑 异步 处 理 , 用 户 注册 成 功 后 发 送 数 
据 到 消息 中 间 件 , 再 跳 转 成 功 页面 , 消息 发 送 的 逻辑 再 由 订阅 该 消息 中 间 件 的 其 他 系统 
负责 处 理 。 三 是 消息 中 间 件 的 读 写 速 度 非常 快 ， 其 中 的 耗 时 可 以 忽略 不 计 。 通 过 消息 中 
间 件 可 以 处 理 更 多 的 请 求 。 

主流 的 消息 中 间 件 有 Kafka. RabbitMQ. RocketMQ 等 ， 下 面 来 对 比 一 下 它们 的 性 
fe. Kafka 是 开源 的 分 布 式 发 布 -订阅 消息 系统 ， 归 属于 Apache 顶级 项 目 ， 主 要 特点 是 
基于 Pull 模式 来 处 理 消 息 消费 ， 追 求 高 吞吐 量 ， 主 要 用 于 日 志 收集 和 传输 。 自 从 0.8 版 
本 开始 支持 复制 ， 不 支持 事务 ， 对 消息 的 重复 、 丢 失 、 错 误 没 有 严格 要 求 ， 适 合 产生 大 
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量 数据 的 互联 网 服务 的 数据 收集 业务 ; RabbitMQ 是 Erlang 语言 开发 的 开源 消息 队列 系 
统 ， 基 于 AMQP 协议 来 实现 。AMGQP 的 主要 特征 是 面向 消息 、 队 列 、 路 由 (包括 点 对 
点 和 发 布 /订阅 )、 可 靠 性 、 安 全 。AMQP 协议 用 在 企业 系统 内 ， 对 数据 一 致 性 、 稳 定性 
和 可 靠 性 要 求 很 高 的 场景 ， 对 性 能 和 吞吐 量 的 要 求 还 在 其 次 。RocketMQ 是 阿里 开源 的 
消息 中 间 件 ， 由 Java 语言 开发 ， 具 有 高 吞吐 量 、 高 可 用 性 、 适 合 大 规模 分 布 式 系统 应 
用 的 特点 。RocketMQ 的 设计 思想 源 于 Kafka， 但 并 不 是 Kafka 的 一 个 Copy， 它 对 消息 
的 可 靠 传输 及 事务 性 做 了 优化 ， 目 前 在 阿里 集团 被 广泛 应 用 于 交易 、 充 值 、 流 计算 、 消 
息 推 送 、 日 志 流 式 处 理 、Binglog 分 发 等 场景 。 结 合 上 述 服务 优势 对 比 ， 在 第 3 章 我 们 
会 使 用 最 主流 的 ActiveMQ 消息 中 间 件 来 处 理 数据 转发 ， 在 第 7 章 我 们 采用 分 布 式 的 
Kafka 实现 数据 转发 。 


13.8 高 可 扩展 海量 存储 服务 


高 可 扩展 是 大 数据 处 理 的 核心 需求 之 一 。 实 际 工 作 中 , 当 用 户 量 在 100 万 以 内 , 而 
且 数据 量 在 TB 级 别 以 内 ,常常 可 以 选择 用 MySQL 数据 库 , 灵活、 成 熟 和 开源 的 MySQL 
数据 库 是 初创 公司 的 首选 。 我 们 考虑 使 用 纵 表 实 现 系统 灵活 可 扩展 , 让 经 常 使 用 的 数据 
放 在 一 个 数据 表 中 , 让 灵活 变化 的 字段 实现 字典 表 模式 ， 让 内 容 常 发 生变 化 的 数据 对 象 
尽量 采用 ISON 格式 。 著 名 的 OpenMRS 系统 在 MySQL 数据 库 中 实现 了 自 定义 表格 ， 
让 医生 可 以 实现 灵活 自 定义 表格 , 收集 自己 的 临床 试验 数据 , 让 用 户 每 天 可 以 记录 自己 
的 饮食 信息 。 这 样 的 设计 就 实现 了 应 用 场景 的 普 适 性 。 我 们 借鉴 OpenMRS 的 核心 思想 
来 构建 一 个 基于 MySQL 的 小 规模 的 物 联网 大 数据 模型 。 应 用 场景 就 是 : 一 个 患者 到 多 
个 医院 进行 体检 并 记录 了 各 个 生理 指标 ,我们 根据 应 用 场景 来 建立 数据 模型 。 患者 表 构 
建 为 Patient 表 ， 医 院 表 构建 为 Location 表 ， 体 检 构 建 为 Encounter 表 ， 测 量 构建 为 
Observation E, 体检 类 型 描述 构建 为 Concept K, 采用 5 张 表 的 多 表 关 联 实现 了 普 适 的 
可 扩展 数据 模型 ， 在 第 3 章 会 详细 阐述 。 

高 可 扩展 的 另外 一 个 接口 实现 就 是 Restful 架构 。Restful 接口 是 安全 开放 平台 的 主 
流 接口 风格 。 一 般 的 应 用 系统 使 用 Session 进行 登录 用 户 信息 的 存储 和 验证 ， 而 大 数据 
平台 的 开放 接口 服务 的 资源 请 求 则 使 用 Token 进行 登录 用 户 信 息 的 验证 。Session 主要 
用 于 保持 会 话 信 息 ， 会 在 客户 端 保存 一 份 Cookie 来 保持 用 户 会 话 有 效 性 ， 而 Token 则 
只 用 于 登录 用 户 的 身份 鉴 权 。 所 以 在 移动 端 使 用 Token 会 比 使 用 Session 更 加 简易 并 且 
有 更 高 的 安全 性 。Restful 架构 遵循 统一 接口 原则 ， 统 一 接口 包含 了 一 组 受 限 的 预定 义 
的 操作 ,不 论 什么 样 的 资源 ， 都 是 通过 使 用 相同 的 接口 进行 资源 的 访问 。 接 口 应 该 使 用 
预先 定义 好 的 主流 的 、 标 准 的 Get/Put/Delete/Post 操作 等 。 
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数据 库 。MongoDB 能 够 使 企业 业务 更 加 具有 扩展 性 ， 通 过 使 用 MongoDB 来 创建 新 的 
应 用 ， 能 使 团队 提升 开发 效率 。 

我 们 具体 分 析 一 下 关系 模型 和 文档 模型 的 区 别 。 关 系 模型 是 按照 数据 对 象 存 到 各 个 
相应 的 表 里 ， 使 用 时 按照 需求 进行 调 取 。 举 例 来 说 ,针对 一 个 体检 数据 模型 设计 ， 在 用 
户 管理 信息 中 包括 用 户 名 字 、 地 址 、 联 系 方式 等 。 按 照 第 三 范式 ,我 们 会 把 联系 方式 用 
单独 的 一 个 表 来 存储 ， 并 在 显示 用 户 信息 时 通过 关联 方式 把 需要 的 信息 取 回 来 。 但 是 
MongoDB 的 文档 模式 ， 存 储 单位 是 一 个 文档 ， 可 以 支持 数组 和 赃 套 文档 ， 这 个 文档 就 
可 以 涵盖 这 个 用 户 相关 的 所 有 个 人 信息 , 包括 联系 方式 。 关 系 型 数据 库 的 关联 功能 恰恰 
是 它 的 发 展 瓶颈 ， 尤 其 是 用 户 数 据 达 到 PB 级 之 后 ， 性 能 和 效率 会 急速 下 降 。 

我 们 采用 MongoDB 设计 一 个 高 效 的 文档 数据 存储 模式 。 ACSA, 把 同类 型 
的 数据 放 在 一 个 内 嵌 文 档 中 。 内 榜 文档 和 对 象 可 以 产生 一 一 映射 关系 ， 如 Map<String, 
String> 可 以 实现 存储 一 个 内 嵌 文 档 。 如 果 是 多 表 关 联 ， 可 以 在 主 表 里 存储 一 个 id 值 ， 
指向 另 一 个 表 中 的 id 值 , 通 过 把 数据 存放 到 两 个 集合 里 实现 多 表 关 联 , 目前 在 MongoDB 
4.0 之 后 版 本 开始 支持 多 文档 的 事务 处 理 。 

我 们 采用 AngularJs 框架 设计 一 个 高 并 发 调用 系统 。 一 提 到 数据 调用 就 想到 了 JQuery 
框架 ，JQuery 框架 的 设计 思想 是 在 静态 页 面 基 础 上 进行 DOM 元 素 操作 。 目 前 最 成 熟 的 
数据 调用 的 主流 框架 之 一 是 AngularJS 框架 ，AngularJS 特别 适合 基于 CRUD 的 Web 应 
用 系统 。 它 简化 了 对 Web 开发 者 的 经 验 要 求 , 同时 让 Web 本 身 变 得 功能 更 强 。 AngularJS 
对 DOM 元 素 操作 都 是 在 Directive 中 实现 的 ， 而 且 一 般 情况 下 很 少 自己 直接 去 写 DOM 
操作 代码 ， 只 要 监听 Model, Model 发 生变 化 后 View 也 会 发 生变 化 。AngularJS 框架 强 
W UI 应 该 是 用 Html 声明 式 的 方式 构建 ， 数 据 和 逻辑 由 框架 提供 的 机 制 自动 匹配 绑 定 。 
AngularJS 有 着 诸多 优势 的 设计 思想 ， 最 为 核心 的 是 : 数据 理由 、 依 赖 注入 、 自 动 化 双 
向 数据 绑 定 、 语 义 化 标签 等 。 依 赖 注入 思想 实现 了 分 层 解 耦 ,包括 前 后 端 分 离 和 合理 的 
模块 化 组 织 项 目 结构 ,让 开发 者 更 关注 于 每 一 个 具体 的 逻辑 本 身 , 从 而 加 快 了 开发 速度 ， 
提升 了 系统 的 质量 。 双 向 绑 定 是 它 的 精华 所 在 , 就 是 界面 的 操作 能 实时 反映 到 数据 ， 数 
据 的 变更 能 实时 展现 到 界面 ， 数 据 模 型 Model 和 视图 View 都 是 绑 定 在 了 内 存 映射 
$Scope 上 。 

下 面 是 我 设计 的 AngularJs 的 项 目 框架 ， 可 以 应 用 于 所 有 业务 系统 ， 在 第 4 章 的 
体检 报告 可 视 化 展示 中 会 详细 阐述 。 建 立 MVC 的 三 层 框架 ， 先 建立 一 个 单 页 视图 层 
Main.html， 然 后 创建 一 个 模型 层 Service.js， 最 后 创建 一 个 控制 层 Appjs，App.js 中 包 
括 多 个 模块 的 JS 和 Html 文件 ， 这 样 就 构建 了 一 个 完整 的 AngularJS MVC 框架 ， 如 
图 1-4 所 示 。 
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高 可 靠 海量 存储 是 大 数据 处 理 的 核心 需求 之 一 。 实 际 工作 中 ， 常 常 需 要 实现 多 模 态 、 
不 同时 间 颗 粒度 的 行业 数据 的 统一 高 效 和 海量 存储 , 并 提供 易于 扩展 的 离线 计算 和 批 处 
理 架 构 。 例 如 ， 引 入 Hadoop 和 Spark 的 大 数据 存储 与 计算 方案 。 高 可 靠 数据 海量 存储 
的 总 体 设计 中 要 吸纳 主流 的 Hadoop 架构 ，Hadoop 集群 是 一 个 能 够 让 用 户 轻松 架构 和 
使 用 的 分 布 式 计算 平台 ， 用 户 可 以 在 Hadoop 上 开发 和 运行 处 理 海量 数据 的 应 用 程序 ， 
如 图 1-5 所 示 。 


对 外 安全 接口 大 数据 海量 存储 引擎 


Restful 接 口 


MQ 接口 


File 接 口 


图 1-5 高 可 靠 海量 存储 服务 框架 设计 


高 可 靠 海量 存储 服务 主要 有 以 下 几 个 优点 。 
(1) 高 可 靠 性 。Hadoop 按 列 存储 和 处 理 数据 的 能 力 值得 信任 。Hadoop 能 够 在 节点 
之 间 动 态 地 移动 数据 ， 并 保证 各 个 节点 的 动态 平衡 ， 因 此 处 理 速度 非常 快 。 
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(2) 高 扩展 性 。Hadoop 是 在 可 用 的 列 簇 中 分 配 数据 并 完成 计算 任务 的 ， 这 些 集 簇 
可 以 方便 地 扩展 到 数 以 千 计 的 节点 中 。 

(3) 高 容错 性 。Hadoop 能 够 自动 保存 数据 的 多 个 副本 ， 并 且 能 够 自动 将 失败 的 任 
务 重新 分 配 。 

数据 海量 存储 的 弹性 设计 中 要 吸纳 主流 的 HBase 架构 。 它 是 一 个 高 可 靠 性 、 高 性 
能 、 面 向 列 、 可 伸缩 的 分 布 式 存储 系统 ， 适 用 于 结构 化 的 存储 ， 底 层 依赖 于 Hadoop 的 
HDFS, 利用 HBase 技 术 可 在 廉价 PCServer 上 搭建 起 大 规模 结构 化 存储 集群 ,因此 HBase 
被 广泛 使 用 在 大 数据 存储 的 解决 方案 中 。 从 应 用 场景 分 析 ， 因 为 HBase 存储 的 是 松散 
的 数据 ， 如 果 应 用 程序 中 的 数据 表 每 一 行 的 结构 是 有 差别 的 ， 使 用 HBase 最 好 ， 因 为 
HBase 的 列 可 以 动态 增加 ， 并 且 列 为 空 就 不 存储 数据 ， 所 以 如 果 你 需要 经 常 追加 字段 ， 
且 大 部 分 字段 是 NULL 值 的 ， 可 以 考虑 HBase。 因 为 HBase 可 以 根据 Rowkey 提供 高 
效 的 查询 ， 所 以 你 的 数据 都 有 着 同一 个 主键 Rowkey。 上 有 具体 实现 见 第 6 章 。 
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实时 计算 的 总 体 设 计 中 要 考虑 Spark 生态 技术 框架 。Spark 使 用 Scala 语言 进行 实 
I, Scala 语言 是 一 种 面向 对 象 、 函 数 式 编程 语言 ， 能 够 像 操 作 本 地 集合 对 象 一 样 轻 松 
地 操作 分 布 式 数据 集 (Scala 提供 一 个 称 为 Actor 的 并 行 模型 )。Spark 具有 运行 速度 快 、 
易 用 性 好 、 通 用 性 强 等 特点 ， 是 在 借鉴 了 MapReduce 思想 之 上 发 展 而 来 的 ， 继 承 了 其 
分 布 式 并 行 计 算 的 优点 并 改进 了 MapReduce 明显 的 缺陷 ， 有 具体 优势 分 析 如 下 : 

(1) Spark 把 中 间 数 据 放 到 内 存 中 ， 人 迭代 运算 效率 高 。MapReduce 中 计算 结果 需要 
落地 ， 保 存 到 磁盘 上 ， 这 样 势必 会 影响 整体 速度 ， 而 Spark 支持 DAG 图 的 分 布 式 并 行 
计算 的 编程 框架 ， 减 少 了 和 迭代 过 程 中 数据 的 落地 ， 提 高 了 处 理 效率 。 

(2) Spark 容错 性 高 。Spark 引进 了 弹性 分 布 式 数 据 集 RDD (Resilient Distributed 
Dataset) 的 抽象 ， 它 是 分 布 在 一 组 节点 中 的 只 读 对 象 集合 ， 这 些 集合 是 弹性 的 ， 如 果 数 
据 集 一 部 分 丢失 ， 则 可 以 根据 “血统 ”对 它们 进行 重建 。 另 外 ， 在 RDD 计算 时 可 以 通 
过 CheckPoint 来 实现 容错 。 

(3) Spark 具备 通用 性 。 在 Hadoop 提供 了 Map 和 Reduce 两 种 操作 基础 上 ，Spark 
又 提供 了 很 多 数据 集 操作 类 型 ， 大 致 分 为 Transformations 和 Actions 两 大 类 。 
Transformations 包括 Map、 Filter、 FlatMap、Sample、 GroupByKey、 ReduceByKey、 Union、 
oin、Cogroup、MapValues、Sort 和 PartionBy 等 多 种 操作 类 型 ， 同 时 还 提供 Count 和 
Actions (包括 Collect, Reduce, Lookup 和 Save) 等 操作 。 

(4) 强大 的 Spark MLlib 机 器 学 习 库 ， 旨 在 简化 机 器 学 习 的 工程 实践 工作 ， 并 方便 
扩展 到 更 大 规模 。MLlib 由 一 些 通 用 的 学 习 算法 和 工具 组 成 ， 包 括 分 类 、 回 归 、 聚 类 、 
协同 过 滤 、 降 维 等 ， 同 时 还 包括 底层 的 优化 原 语 和 高 层 的 管道 API。 
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13.7 基于 机 器 学 习 的 智能 分 析 服 务 


智能 分 析 服 务 的 总 体 设 计 中 要 考虑 Spark MLlib 工具 。 当 今 主流 的 建 模 语 言 包 括 及 
语言 、Weka、Mahout 和 Spark 等 ， 下 面 来 分 析 它 们 的 基因 和 应 用 场景 。 

R 是 一 种 数学 语言 ， 里 面 封装 了 大 量 的 机 器 学 习 算 法 ， 但 是 它 是 单机 的 ， 不 能 够 很 
好 地 处 理 海量 的 数据 。Weka 和 了 语言 类 似 ， 里 面包 含 大 量 经 过 良好 优化 的 机 器 学 习 和 
数据 分 析 算 法 ， 可 以 处 理 与 格式 化 、 转 换 相关 的 各 种 任务 ， 唯 一 的 不 足 就 是 它 对 高 内 存 
要 求 的 大 数据 处 理 遇 到 瓶颈 。 

Mahout 是 Hadoop 的 一 个 机 器 学 习 库 , 有 海量 数据 的 并 发 处 理 能 力 , 主要 的 编程 模 
型 是 MapReduce。 而 基于 MapReduce 的 机 器 学 习 在 反复 迭代 的 过 程 中 会 产生 大 量 的 磁 
盘 VO， 即 本 次 计算 的 结果 要 作为 下 一 次 迭代 的 输入 ， 这 个 过 程 中 只 能 把 中 间 结 果 存 储 
于 磁盘 , 然后 在 下 一 次 计算 时 重新 读 取 , 这 对 于 和 迭代 频 发 的 算法 显然 是 致命 的 性 能 瓶颈 ， 
所 以 计算 效率 很 低 。 现 在 Mahout 已 经 停止 更 新 MapReduce 算法 , 向 Spark 迁移 。 另外， 
Mahout 和 Spark MLlib 并 不 是 竞争 关系 ，Mahout 是 MLlib 的 补充 。 

MLlib 是 Spark 对 常用 的 机 器 学 习 算法 的 实现 库 ， 同 时 包括 相关 的 测试 和 数据 生成 
器 。Spark 的 设计 就 是 为 了 支持 一 些 和 迭代 的 工作 , 这 正好 符合 很 多 机 器 学 习 算 法 的 特点 。 
在 逻辑 回归 的 运算 场景 下 ，Spark 比 Hadoop 快 了 100 倍 以 上 。Spark MLlib 立足 于 内 存 
HH, 适应 于 迭代 式 计算 。 而 且 Spark 提供 了 一 个 基于 海量 数据 的 机 器 学 习 库 ， 它 提供 
了 常用 机 器 学 习 算法 的 分 布 式 实现 , 工程 师 只 需要 有 Spark 基础 并 且 了 解 机 器 学 习 算法 
的 原理 ， 以 及 方法 相关 参数 的 含义 ， 就 可 以 轻松 地 通过 调用 相应 的 API 来 实现 基于 海 
量 数据 的 机 器 学 习 过 程 。 具 体 实现 见 第 8 章 。 

13.8 自 定义 迁移 服务 


数据 迁移 能 力 的 总 体 设 计 中 要 考虑 Sqoop 框架 。Sqoop 是 目前 Hadoop 和 关系 型 数 
据 库 中 的 一 个 数据 相互 转移 的 主流 工具 , 可 以 将 一 个 关系 型 数据 库 ( 如 MySQL, Oracle, 
Postgres 等 ) 中 的 数据 导入 Hadoop 的 HDFS 中 ， 也 可 以 将 HDFS 的 数据 导入 关系 型 数 
据 库 中 。 作 为 ETL 工具 ， 使 用 元 数据 模型 来 判断 数据 类 型 并 在 数据 从 数据 源 转移 到 
Hadoop 时 确保 类 型 安全 的 数据 处 理 。Sqoop 框架 可 以 进行 大 数据 批量 传输 设计 ， 能 够 
分 割 数据 集 并 创建 Hadoop 任务 来 处 理 每 个 区 块 。 具 体 实现 见 第 9 章 。 


14 设计 小 结 


本 章 是 总 体 设计 篇 , 由 总 体 技术 要 求 推导 出 微服 务 的 核心 需求 和 设计 方法 , 最 后 针 
对 8 个 微服 务 在 各 章节 中 提出 了 架构 设计 和 实现 方法 。 具 体 如 下 。 


。 17 。 


. 
大 数据 架构 之 道 与 项 目 实 成 了 


: 深入 阐释 “高 并 发 采集 微服 务 ” 的 架构 设计 和 技术 实现 。 

: 着 重 论述 “灵活 转发 微服 务 ” 的 架构 设计 和 技术 实现 。 

: 详细 介绍 “高 可 扩展 海量 存储 微服 务 ” 的 架构 设计 和 技术 实现 。 
: 重点 讲述 “高 并 发 海量 存储 微服 务 ” 的 架构 设计 和 技术 实现 。 

: 重点 说 明 “ 高 可 靠 海量 存储 微服 务 ” 的 架构 设计 和 技术 实现 。 

: 详细 论述 “实时 计算 微服 务 ” 的 架构 设计 和 技术 实现 。 

: 主要 介绍 “智能 分 析 微 服务 ”的 架构 设计 和 技术 实现 。 

: 深入 论述 “ 自 定义 迁移 微服 务 ” 的 架构 设计 和 技术 实现 。 


大 数据 高 并 发 采集 
微服 务 引擎 
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架构 之 道 分 享 之 二 : 孙子 兵法 的 《作战 篇 》 提 出 了 降低 战争 消耗 的 两 个 主张 : 
一 是 缩短 战争 持续 时 间 , 迅速 赢得 战争 ; 二 是 就 地 解决 粮草 问题 , 减少 长 途 运输 耗费 。 
映射 到 项 目 设计 上 ， 我 们 提升 项 目 开发 效率 有 两 个 方法 : 一 是 采用 微服 务 设计 和 敏 
捷 开 发 ， 迅 速 迭代 和 演进 ; 二 是 采用 国内 主流 成 熟 框 架 ， 避 人 免 重复 开发 带 来 的 资源 
浪费 。 


本 章 学 习 目 标 
k 掌握 基于 Spring Boot 和 Spring MVC 高 并 发 采集 微服 务 的 构建 
* 掌握 Mina 框架 的 工作 原理 和 实战 技巧 
* 掌握 组 合 、 迭 代 、 策 略 、 状 态 模式 的 工作 原理 和 实战 技巧 
x 掌握 C3P0 技术 原理 和 高 可 靠 入 库 方法 


2.1 核心 需求 分 析 和 优秀 解决 方案 


为 了 满足 物 联网 数据 高 并 发 接 入 需求 的 同时 ， 要 考虑 各 种 设备 接口 规范 性 和 可 扩展 
性 设计 ， 还 要 保证 后 续 新 设备 接 入 和 旧 设 备 的 升级 改造 。 性 能 方面 要 保证 单机 达到 
3000TPS 以 上 的 吞吐 量 。 为 了 达到 如 上 的 功能 和 性 能 需求 ， 在 框架 选 型 方面 ， 我 们 借 
助 了 负载 均衡 技术 框架 Mina2.0 的 高 性 能 采集 能 力 。 在 架构 设计 方面 ,自主 设计 业务 树 
来 加 载 不 同 设备 和 不 同 三 家 的 物 联网 数据 , 保证 设备 和 数据 的 可 扩展 性 接 入 能 力 。 业务 
的 可 扩展 性 一 般 采 用 树 或 者 图 的 数据 结构 来 设计 , 满足 可 扩展 性 和 高 效 遍历 的 需求 。 针 
对 物 联网 数据 的 不 同 设备 、 不同 数 据 类 型 、 不 同 数据 格式 的 业务 特点 , 采用 树 的 数据 结 
构 设计 是 最 合理 的 。 业 务 树 构建 要 考虑 不 同类 型 设备 的 灵活 接 入 , 可 以 采用 策略 设计 模 
式 来 解决 扩展 性 。 业 务 树 构建 要 考虑 不 同类 型 数据 包 的 灵活 接 入 , 可 以 采用 状态 设计 模 
式 来 解决 扩展 性 。 业 务 树 构建 要 考虑 不 同 数据 格式 的 解析 , 可 以 采用 组 合 和 迭代 模式 来 
遍历 业务 树 。 


22 服务 引擎 的 技术 架构 设计 


CD 大 数据 高 并 发 采集 服务 包括 5 个 核心 模块 ， 如 图 2-1 所 示 ， 每 一 个 模块 要 考虑 
可 扩展 性 和 高 性 能 两 个 关键 因素 ， 具 体 说 明 如 下 。 

O 核心 模块 一 : 通过 Spring MVC 和 Spring Boot 微服 务 构 建 采 集 服务 框架 ， 借 助 
Mina2.0 的 负载 均衡 框架 实现 高 并 发 处 理 能 力 。 

© 核心 模块 二 : 阐述 数据 协议 规范 制定 及 数据 包 设计 ， 采 用 业务 树 进行 数据 包 设计 。 
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图 核心 模块 三 ， 按照 设备 和 数据 类 型 进行 业务 树 构建 ， 采 用 组 合 和 迭代 模式 设计 
业务 树 。 

© 核心 模块 四 : 按照 设备 的 数据 包 状态 进行 解析 数据 包 ， 采 用 策略 和 状态 模式 设 
计 业 务 树 。 

O 核心 模块 五 : 为 了 高 效率 入 库 ， 采 用 C3P0 数据 库 连 接 池 技术 ， 保 证 数据 高 并 
发 入 库 。 


图 2-1 大 数据 高 并 发 采集 服务 模块 化 设计 


(2) 构建 Spring MVC 版 本 的 BD_AggregateServer Maven 服务 工程 框架 ， 如 图 2-2 
所 示 。 


HS Package Explorer 13 Sele=o 
4 ¡Fl BD AggregateServer Maven ^ 
zx 


4 ¿E component 
a jf fiher 
[P Componentjava 
回 ComponeniOFilterjava 
国 MHRootComponertjava 
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数据 架构 之 道 与 项 目 实战 


G) Kj 


Ë Spring Boot 版 本 的 BD_AggregateSever Boot 服务 工程 框架 ， 如 图 2-3 所 示 。 


application.properties 
iX. c3p0-config xml 

£9 srchestijeva 

(9 srefest/resources 

BÀ JRE System Library a 

Bh Maven Dependencies 


图 2-3 大 数据 采集 服务 Spring Boot 版 本 工程 


2.2.1 Maven 与 Eclipse 集成 配置 


Maven 项 目 作 为 时 下 最 火 的 项 目 管理 工具 , 广泛 地 应 用 在 大 部 分 的 项 目 开 发 中 。 利 
用 它 可 以 快速 方便 地 完成 项 目的 构建 、 测 试 、 打 包 、 发 布 等 功能 。 其 核心 配置 文件 
pom.xml 主要 描述 了 开发 者 需要 遵循 的 规则 、 组 织 和 licenses、 项 目的 url、 项 目的 依赖 
性 以 及 其 他 所 有 的 项 目 相 关 因 素 。Maven 项 目 之 间 存 在 着 3 种 关系 : 继承 、 依 赖 、 聚 合 。 
相关 概念 总 结 如 表 2-1 所 示 。 


表 2-1 Maven 常用 概念 简介 表 


名 mR 含义 说 明 
modelVersion | Maven 模块 版 本 
groupld 组 织 名 以 及 项 目 名 称 
artifactId 子 模块 名 称 
Fiji 打包 类 型 ， 可 取 值 : jar. war. pom 等 ， 这 个 配置 用 于 package 的 phase， 具 体 可 以 
packaging | 参见 package 运行 时 启动 的 plugin 
依赖 项 的 适用 范围 : 
e compile: 默认 值 ， 适 用 于 所 有 阶段 ， 会 随 着 项 目 一 起 发 布 
e provided: 类 似 compile， 期 望 DK、 容 器 或 使 用 者 会 提供 这 个 依赖 。 如 servletjar 
scope e runtime: 只 在 运行 时 使 用 ， 如 JDBC 驱动 、 适 用 运行 和 测试 阶段 
© test: 只 在 测试 时 使 用 ， 用 于 编译 和 运行 测试 代码 。 不 会 随 项 目 发 布 
e system: 类 似 provided， 需 要 显 式 提供 包含 依赖 的 jar，Maven 不 会 在 Repository 
中 查找 它 
exclusions 排除 项 目 中 的 依赖 冲突 时 使 用 


. 22. 


Dmm 
EN 


‘ 
第 2 章 大 数据 高 并 发 采集 微服 务 引擎 


Maven 也 能 与 常见 的 开发 工具 eclipse. idea 集成 ， 下 面 是 与 eclipse 集成 相关 配置 。 

(1) 下 载 Maven 插件 ， 下 载 地 址 是 https:/Maven.apache.org/， 版 本 是 apache- 
Maven-3.5.2 zip. 

(2) 打开 eclipse 菜单 栏 preperences 选项 ， 在 搜索 框 中 输入 maven, XF% Installations 
选项 ,， 单 击 Add 按钮 ， 选 择 已 解压 的 Maven 安装 文件 路 径 ， 单 击 Apply 按钮 ， 如 图 2-4 
和 图 2-5 所 示 。 

New Maven Runtime © pp 


Enter the home directory of the Maven Installation 


Installation type: External Workspace 


Installation home: | Directory... 
Installation name: m 
|| Additional extension libraries: 
Project... 
Remove 
=I 
Down 
Restore Default | 


图 2-4 eclipse 安装 Maven 路 径 设置 


maven Installations ero 
nen Select the installation used to launch Maven: 
Discovery Name Details Add 
Errors/Warnings E EMBEDDED 333, 10150902-0002 Edi. 
Installations E] WORKSPACE & NOTA 3.0) 
| Java EE Integration |] apache-maven-3.5.2 _D:\apache-maven-3.5.2-bin\apache-maven-3.5.2-4 Remove | | 
|. Uifecycle Mappings | 
Templates 
User Interface 
User Settings 


a x J + 
Note: Embedded runtime is always used for dependency resolution 


Restore Defaults Apply |] 
00 Goa 
2-5 Maven 默认 版 本 设置 
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(3) 单 击 左 栏 的 User Settings 选项 ， 选 择 Maven 的 核心 配置 文件 setting xml 的 路 
径 ， 如 图 2-6 所 示 。 


Global Settings: 


User Settings (open file): 
G\apache-maven-3.5.2-bin\apache-maven-3.5.2\conf\settings.xml 


Update Settings 


Local Repository (From merged user and global settings): 


GAmavenRepoistry 


El 2-6 Maven 配 置 文件 setting.xml 设置 


(4) 修改 配置 文件 settings.xml， 设 置 本 地 仓库 位 置 以 及 阿里 云 镜像 (可 选 配置 ， 
使 用 阿里 云 镜 像 相对 比 中 央 仓 库 镜 像 下 载 jar 包 依赖 速度 快 )， 并 单 击 Update Settings 
按钮 。 配 置 实 现 如 下 : 


<localRepository>C: \Users\changyaobin\ .m2\repository</localRepository> 
<mirror> 

<id>nexus-aliyun</id> 

<mirrorOf>central</mirrorof> 

<name>Nexus aliyun</name> 


<url>http://Maven.aliyun.com/nexus/content/groups/public</url> 
</mirror> 


2.2.2 Mina2.0 框架 以 及 业务 设计 


1. Mina2.0 核心 技术 讲解 
Mina 是 一 个 主要 对 基于 TCP/IP, UDP/IP 协议 栈 的 主流 网 络 通信 应 用 框架 , 被 支付 
宝 等 商用 产品 使 用 多 年 ， 可 以 帮助 我 们 快速 开发 高 性 能 、 高 扩展 性 的 网 络 通信 应 用 。 
Mina 提供 了 事件 驱动 、 异 步 (Mina 的 异步 IO 使 用 的 是 JAVA NIO 作为 底层 支持 ) 操 
作 的 编程 模型 。 它 同时 对 网 络 通信 的 Server 端 、Client 端 进行 了 封装 ， 这 样 ， 开 发 者 
只 需要 关心 数据 的 接受 、 发 送 以 及 业务 处 理 即 可 。 下 面 是 其 重要 的 几 个 接口 , 如 图 2-7 
所 示 。 
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E] 


readin data een 
En ToProcessor2 


write out data 


2-7 Mina 框架 流程 


(1) ToService: 这 个 接口 在 一 个 线程 上 负责 套 接 字 的 建立 ， 拥 有 自己 的 Selector, 
监听 是 否 有 连接 被 建立 。 这 个 接口 是 服务 端 ToAcceptor, ii IoConnector 的 抽象 ， 
提供 VO 服务 和 管理 IoSession 的 功能 。IoAcceptor 进程 用 于 监听 客户 端的 连接 , 每 监听 
一 个 端口 建立 一 个 线程 ， 可 以 同时 监听 多 个 端口 。IoConnector 进程 用 于 与 服务 端 建立 
连接 , 每 连接 一 个 服务 端 就 建立 一 个 线程 。 这 两 种 线程 都 是 通过 线程 池 建立 的 ， 我 们 可 
以 在 构建 对 象 时 就 指定 线程 池 类 型 ， 默 认 的 线程 池 类 型 为 newCachedThreadPool。 

(2) IoProcessor: 这 个 接口 在 另 一 个 线程 上 ， 负 责 检查 是 否 有 数据 在 通道 上 读 写 和 
IO 的 处 理 ， 也 就 是 说 它 也 拥有 自己 的 Selector， 这 是 与 我 们 使 用 JAVA NIO 编码 时 的 一 
个 不 同 之 处 。 通 常 在 JAVA NIO 编码 中 ， 我 们 都 是 使 用 一 个 Selector， 也 就 是 不 区 分 
IoService 与 IoProcessor 两 个 功能 接口 。 另 外 ，IoProcessor 负责 调用 注册 在 IoService 上 
的 过 滤器 ， 并 在 过 滤器 链 之 后 调用 IoHandler。 对 于 一 个 IoAcceptor 或 IoConnector 线程 
对 应 一 个 IoProcessor 线程 ， 这 个 IoProcessor 线程 从 IoProcessor 线程 池 中 取出 ， 
IoProcessor 线程 池 的 大 小 默认 为 机 器 的 CPU 核 数 +1。 

(3) IoFilter: 这 个 接口 通常 都 是 成 组 存在 的 ， 这 些 过 滤器 按照 一 定 的 顺序 组 成 一 条 
过 滤器 链 ， 主 要 用 于 日 志 输出 、 黑 名 单 过 滤 、 数 据 的 编码 与 解码 等 。 其 中 数据 的 encode 
与 decode 是 最 为 重要 的 ， 也 是 在 使 用 Mina 时 最 主要 关注 的 地 方 。 

(4) IoHandler: 这 个 接口 负责 编写 业务 逻辑 ， 也 就 是 接收 、 发 送 数据 的 处 理 中 心 。 

(5) 服务 端 流程 : 

e 通过 SocketAcceptor 同 客户 端 建立 连接 。 

e 连接 建立 之 后 VO 的 读 写 交 给 了 VO Processor 线程 ，L/O Processor 是 多 线程 的 。 

e 通过 VO Processor 读 取 的 数据 按照 先后 顺序 经 过 IoFilterChain 里 所 有 配置 的 

IoFilter，IoFilter 进行 消息 的 过 滤 ， 格 式 的 转换 。 
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IoFilter 链 处 理 完毕 后 将 数据 交 给 Handler 进行 业务 处 理 ， 完 成 了 数据 读 取 处 理 。 
e 写 入 过 程 也 是 类 似 , 只 是 刚好 倒 过 来 ,通过 IoSession .write 写 出 数据 , 然后 Handler 
进行 写 入 的 业务 处 理 ， 处 理 完成 后 交 给 IoFilterChain， 进 行 消息 过 滤 和 协议 的 转 
换 ， 最 后 通过 VO Processor 将 数据 写 出 到 socket 通道 。 
2. Mina 的 业务 实现 流程 
首先 架构 业务 解码 器 树 ,然后 将 创建 自 定义 解码 器 类 进行 解码 。 解码 完毕 后 , 调用 
自 定义 IoHandler 类 完成 业务 数据 处 理 。 具 体 实现 过 程 可 以 参照 2.3.4 节 。 


223 设备 协议 规范 制定 及 数据 包 设计 


数据 包 设 计 首先 采用 字 节 流 方式 , 可 以 节省 设备 的 存储 成 本 。 考 虑 到 数据 完整 性 和 
交互 可 靠 性 ， 采 用 TCP 协议 。 通 过 消息 请 求 和 消息 确认 机 制 ， 实 现 设备 和 服务 之 间 的 
信息 交互 。 设 计 如 下 。 

1. 设备 发 送 到 平台 的 登录 包 

COD 消息 头 Heaher， 占 用 4 字 节 ， 例 如 Oxa8 0x4 0x00 0x01. 

(2) 消息 长 度 Length， 占 用 4 字 节 , 表明 此 次 数据 包 的 长 度 , 例如 Oxa8 0x6 0x00 
0x09. 

(3) 数据 包 类 型 Type， 占 用 2 字 节 ， 声 明 此 数据 包 的 类 型 ， 例 如 0x01 0x80. 

(4) 设备 id， 占用 16 字 节 ， 声 明 此 数据 包 设备 来 源 id， 例 如 0101100110010101. 

(5) 密码 password， 占 用 16 字 节 ， 声 明 用 户 的 密码 ， 例 如 1234567821321242. 

2. 平台 回复 设备 登录 数据 包 的 ACK 

(1) 消息 头 Heaher， 占 用 4 字 节 ， 例 如 0xa7 Oxb8 0x00 0x01. 

(2) 消息 长 度 Length， 占 用 4 字 节 ， 例 如 Oxa8 0x6 0x00 0x09. 

(3) 类 型 Type， 占 用 2 字 节 ， 例 如 0x01 0x01. 

(4) 年 份 Year， 占 用 2 字 节 。 

(5) 月 份 Month， 占 用 1 字 节 。 

(6) 日 Day， 占 用 1 字 节 。 

(7) 小 时 Hour， 占 用 1 字 节 。 

(8) 分 钟 Minute， 占 用 1 字 节 。 

(9) 秒 Second， 占 用 1 字 节 。 

3. 设备 发 送 到 平台 的 1 号 数据 包 

(1) 消息 头 Heaher， 占 用 4 字 节 ， 例 如 0xa7 0xb8 0x00 0x01。 

(2) 消息 长 度 Length， 占 用 4 字 节 ， 例 如 Oxa8 0x6 0x00 0x09. 

(3) 类 型 Type， 占 用 2 字 节 ， 例 如 0x07 0x02. 

(4) 设备 唯一 标识 DeviceIld， 占 用 21 字 节 ， 使 用 devid 占用 5 FERN J 
16 字 节 作为 设备 id。 
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(5) 用 户 数据 UserData， 类 型 为 数组 结构 ， 其 详细 信息 如 下 : 
@ 数据 包 类 型 ， 占 用 1 字 节 ， 主 要 声明 数据 是 设备 自动 上 传 还 是 用 户 手动 上 传 ， 
例如 ，1 代表 自动 上 传 ，2 代表 手动 上 传 。 

O 数据 包 生 成 时 间 ， 占 用 3 个 字 节 ， 按 照 字 节 顺 序 分 别 代表 年 、 月 、 日 。 

© 总 步 数 ， 占 用 4 字 节 。 

O 设备 电池 电量 ， 表 明 设 备 剩 余 的 电池 电量 ， 占 用 1 字 节 。 

© 体重 ， 表 明 用 户 的 体重 信息 ， 默 认 单 位 是 kg， 占 用 1 字 节 。 

O 步 幅 ， 表 明 用 户 的 步 幅 ， 默 认 单位 是 cm， 占用 1 字 节 。 

O 卡路里 ， 表 明 用 户 智能 终端 运动 所 消耗 的 总 卡路里 ， 默 认 单位 是 kcal， 占 用 4 
Me 
总 步 数 ， 表 明 用 户 行走 的 总 步 数 ， 占 用 4 字 节 。 

O 智能 终端 运动 总 距离 ， 默 认 单位 是 m， 占 用 4 字 节 。 

智能 终端 运动 等 级 1， 表 明 用 户 在 该 等 级 的 时 间 ， 默 认 单位 是 s， 占 用 2 字 节 。 
O 智能 终端 运动 等 级 2， 表 明 用 户 在 该 等 级 的 时 间 ， 默 认 单位 是 s， 占 用 2 字 节 。 
O 智能 终端 运动 等 级 3， 表 明 用 户 在 该 等 级 的 时 间 ， 默 认 单位 是 s， 占 用 2 字 节 。 
O 智能 终端 运动 等 级 4， 表明 用 户 在 该 等 级 的 时 间 ， 默 认 单位 是 s， 占 用 2 字 节 。 
4. 平台 回复 设备 1 号 数据 包 的 ACK 

(1) 消息 头 Heaher， 占 用 4 字 节 ， 例 如 0xa7 Oxb8 0x00 0x01. 

(2) 消息 长 度 Length， 占 用 4 字 节 ， 例 如 Oxa8 0x6 0x00 0x09。 

(3) 类 型 Type， 占 用 2 字 节 ， 例 如 0x07 0x02。 

(4) 操作 状态 响应 码 ACK， 占 用 1 字 节 ， 例 如 ，0x0E 代表 成 功 ，0xOF 代表 失败 。 
5. 设备 发 送 到 平台 的 2 号 数据 包 

(1) 消息 头 Heaher， 占 用 4 字 节 ， 例 如 0xa7 0xb8 0x00 0x01。 

(2) 消息 长 度 Length， 占 用 4 字 节 ， 例 如 Oxa8 0x6 0x00 0x09。 

(3) 类 型 Type， 占 用 2 字 节 ， 例 如 0x07 0x02. 

(4) 设备 唯一 标识 DeviceId， 占 用 21 字 节 ， 使 用 devid 占用 5 字 节 作为 前 缀 ， 后 


16 字 节 作为 设备 id。 


(5) 用 户 智能 终端 运动 数据 USRDATA, 占用 114 字 节 , 表示 用 户 单个 小 时 的 数据 ， 


数据 结构 为 数组 形式 ， 其 详情 如 下 : 


(D 年 Year， 占 用 2 字 节 。 

O 保留 字段 Reversed， 占 用 1 字 节 。 

® 月 Month， 占 用 1 字 节 。 

O 日 Day， 占 用 1 字 节 。 

®© 小 时 Hour， 占 用 1 字 节 。 

© 每 5 分钟 的 步 数 ， 共 有 12 组 数据 ， 每 组 数据 占用 2 字 节 。 
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O & S 分钟 的 消耗 的 卡路里 ， 共 有 12 组 数据 ， 每 组 数据 占用 2 字 节 。 

每 5 分 钟 的 智能 终端 运动 强度 等 级 2， 共 有 12 组 数据 ， 每 组 数据 占用 1 字 节 。 例 
如 ，0 代表 不 是 该 强度 ，1 代表 是 该 强度 。 

O 每 5 分 钟 的 智能 终端 运动 强度 等 级 3， 共有 12 组 数据 ， 每 组 数据 占用 1 字 节 。 
例如 ，0 代表 不 是 该 强度 ，1 代表 是 该 强度 。 

AES 分 钟 的 智能 终端 运动 强度 等 级 4， 共有 12 组 数据 ， 每 组 数据 占用 1 字 节 。 
例如 ，0 代表 不 是 该 强度 ，1 代表 是 该 强度 。 

D 每 5 分 钟 步 数 、 卡 路 里 、 智 能 终端 运动 等 级 的 平方 和 ,共有 12 组 数据 ， 每 组 数 
据 占用 2 字 节 。 

6. 平台 回复 设备 2 号 数据 包 的 ACK 

(1) 消息 头 Heaher， 占 用 4 字 节 ， 例 如 0xa7 Oxb8 0x00 0x01. 

(2) 消息 长 度 Length， 占 用 4 字 节 ， 例 如 Oxa8 0x6 0x00 0x09。 

(3) 类 型 Type， 占 用 2 字 节 ， 例 如 0x08 02. 

(4) 操作 状态 响应 码 ACK， 占 用 1 字 节 ， 例 如 ，0x0E 代表 成 功 ，0xOF 代表 失败 。 

7. 设备 发 送 到 平台 的 3 号 数据 包 

CD 消息 头 Heaher， 占 用 4 字 节 ， 例 如 0xa7 0xb8 0x00 0x01。 

(2) 消息 长 度 Length， 占 用 4 字 节 ， 例 如 0xa8 0x6 0x00 0x09。 

(3) 类 型 Type， 占 用 2 字 节 ， 例 如 0x07 0x02。 

(4) 设备 唯一 标识 DeviceId， 占 用 21 字 节 ， 使 用 devid 占用 5 字 节 作为 前 级 ， 后 
16 字 节 作为 设备 id。 

(5) 用 户 智能 终端 运动 数据 USRDATA, 占用 114 字 节 , 表示 用 户 单个 小 时 的 数据 ， 
数据 结构 为 数组 形式 ， 其 与 1 号 包 唯一 不 同 的 是 ，1 号 包 传 来 的 是 总 步 数 ， 而 该 数据 包 
只 传 来 的 是 有 效 的 步 数 。 

8. 平台 回复 设备 3 号 数据 包 的 ACK 

(1) 消息 头 Heaher， 占 用 4 字 节 ， 例 如 0xa7 Oxb8 0x00 0x01。 

(2) 消息 长 度 Length， 占 用 4 字 节 ， 例 如 Oxa8 0x6 0x00 0x09. 

(3) 类 型 Type， 占 用 2 字 节 ， 例 如 0x08 03. 

(4) 操作 状态 响应 码 ACK， 占 用 1 字 节 ， 例 如 ，0x0E 代表 成 功 ，0xOF 代表 失败 。 

9. 智能 终端 运动 数据 包 设 计 

针对 如 上 协议 规范 ， 我 们 采用 接口 或 者 抽象 类 进行 设计 。 对 于 面向 对 象 编程 来 说 ， 
抽象 是 它 的 重要 特征 之 一 。Java 中 可 以 通过 接口 和 抽象 类 两 种 形式 来 体现 OOP 的 抽象 。 
这 两 者 有 太 多 相似 的 地 方 ， 又 有 太 多 不 同 的 地 方 。 

CD 含有 抽象 方法 的 类 称 为 抽象 类 。 抽 象 方法 是 一 种 特殊 的 方法 : 它 只 有 声明 ， 而 
没有 具体 的 实现 。 抽 象 方法 必须 用 abstract 关键 字 进 行 修 饰 ， 抽 象 类 必须 在 类 前 用 
abstract 关键 字 修饰 。 因 为 抽象 类 中 含有 无 具体 实现 的 方法 ， 所 以 不 能 用 抽象 类 创建 对 
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象 。 抽 象 类 包含 抽象 方法 ， 但 并 不 意味 着 抽象 类 中 只 能 有 抽象 方法 ， 它 和 普通 类 一 样 ， 
同样 可 以 拥有 成 员 变量 和 普通 的 成 员 方 法 。 注 意 ， 抽 象 类 和 普通 类 主要 有 如 下 三 点 区 别 。 

O 抽象 方法 必须 为 public 或 者 protected (因为 如 果 为 private, 则 不 能 被 子 类 继承 ， 
子 类 便 无 法 实现 该 方法 )， 默 认 情况 下 为 public。 

O 抽象 类 不 能 用 来 创建 对 象 。 

© 如 果 一 个 类 继承 于 一 个 抽象 类 ， 则 子 类 必须 实现 父 类 的 抽象 方法 。 如 果子 类 没 
有 实现 父 类 的 抽象 方法 ， 则 必须 将 子 类 也 定义 为 abstract 类 。 

(2) 接口 在 软件 工程 中 泛 指 供 别 人 调用 的 方法 或 者 函数 ， 是 对 行为 的 抽象 。 在 Java 
中 , 继承 接口 的 形式 如 下 : class ClassName implements Interfacel, Interface2, [....] (.....) o 
如 果 一 个 非 抽 象 类 遵循 了 某 个 接口 , 就 必须 实现 该 接口 中 的 所 有 方法 , 允许 一 个 类 遵循 
多 个 特定 的 接口 。 对 于 遵循 某 个 接口 的 抽象 类 ,可 以 不 实现 该 接口 中 的 抽象 方法 。 具体 
区 别 如 下 : 

O 抽象 类 可 以 提供 成 员 方 法 的 实现 细节 ， 但 是 接口 中 只 能 存在 public abstract 方法 。 

O 抽象 类 中 的 成 员 变量 可 以 是 各 种 类 型 的 ， 而 接口 中 的 成 员 变 量 只 能 是 public 
static final 类 型 的 。 

O 接口 中 不 能 含有 静态 代码 块 以 及 静态 方法 ， 而 抽象 类 可 以 有 静态 代码 块 和 静态 
方法 。 

@ 一 个 类 只 能 继承 一 个 抽象 类 ， 而 一 个 类 却 可 以 实现 多 个 接口 。 

O 对 于 抽象 类 ， 如 果 需 要 添加 新 的 方法 ， 可 以 直接 在 抽象 类 中 添加 具体 的 实现 ， 
子 类 可 以 不 进行 变更 ; 而 对 于 接口 则 不 行 ， 如果 接口 进行 了 变更 , 则 所 有 实现 这 个 接口 


的 类 都 必须 进行 相应 的 改动 。 
(3) 数据 包 的 抽象 类 和 具体 类 的 UML 设计 图 如 图 2-8 所 示 。 
PackageData 
name: Sting 
Hype: Sting 
+oevcelD: S 
pabentiD: Sting 
eompeny: Sting 
password: S 
+aopType: Sting 
| 
HoorTme: Sting| | +battery: nt (erum battery: 
mM == | | Saree, 
ical: long uistesfing> | | Hea: long 
pe ‘acura 
Hevell: nt Hevell: nt 
Seve: nt eve: nt N 
Seve: nt Seve: nt N 
Hevels: int Heveld: nt 
ran type: int ran type: int N 
+stepdate: String pi] 
are version: Sting +frmuare_verson: Sting SrnceDatarackage| 
pretio sula prefer: Sting +measureTime: String 
it: Sting thghoressure: Sting 
Honpressure: Stang 
thearvate: Sting 
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2.2.4 按照 设备 和 数据 类 型 进行 业务 树 构 建 


C) RA (Iterator) 模式 ， 是 提供 一 种 方法 访问 一 个 容器 (container) 对 象 中 各 
个 元 素 ， 而 又 不 需 暴 露 该 对 象 的 内 部 细节 。 从 定义 可 见 ， 和 迭代 器 模式 是 为 容器 而 生 。 因 
此 ,对 容器 对 象 的 访问 必然 涉及 遍历 算法 .可 以 一 次 性 地 将 遍历 方法 塞 到 容器 对 象 中 去 ， 
或 者 根本 不 去 提供 什么 遍历 算法 , 让 使 用 容器 的 人 自己 去 实现 。 这 两 种 情况 好 像 都 能 够 
解决 问题 。 然 而 在 前 一 种 情况 ， 容 器 承受 了 过 多 的 功能 ， 它 不 仅 要 负责 自己 “容器 ”内 
的 元 素 维护 添加、 删除 等 )， 还 要 提供 遍历 自身 的 接口 ， 而 且 由 于 遍历 状态 保存 的 问 
题 ， 不 能 对 同一 个 容器 对 象 同时 进行 多 次 遍历 。 第 二 种 方式 虽然 省 事 ， 却 又 将 容器 的 内 
部 细节 暴露 无 遗 。 而 和 迭代 器 模式 的 出 现 ， 很 好 地 解决 了 上 面 两 种 情况 的 弊端 。 先 来 看 下 
迭代 器 模式 的 角色 定义 。 

O 人 迭代 器 角色 〈Iterator): 迭代 器 角色 负责 定义 访问 和 遍历 元 素 的 接口 。 

© 具体 迭代 器 角色 〈Concrete Iterator): 具体 迭代 器 角色 要 实现 欠 代 器 接口 ， 并 要 
记录 遍历 中 的 当前 位 置 。 

O 容器 角色 (Container): 容器 角色 负责 提供 创建 具体 迭代 器 角色 的 接口 。 

O 具体 容器 角色 (Concrete Container): 具体 容器 角色 实现 创建 具体 迭代 器 角色 。 

© 迭代 器 模式 的 类 图 如 图 2-9 所 示 。 


O< ES >0 


Aggregat Iterator 
e 


WCreatsiterator() 


ConcreteAggregate 


BSiCreatelterator() 


BSCurrentltem() 


图 2-9 和 迭代 器 类 关系 
O 迭代 器 的 应 用 场景 如 下 : 
© 访问 一 个 容器 对 象 的 内 容 而 无 须 暴露 它 的 内 部 表示 。 
e. 支持 对 容器 对 象 的 多 种 遍历 。 
。 为 遍历 不 同 的 容器 结构 提供 一 个 统一 的 接口 〈 多 态 迭 代 )。 
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2) 组 合 模式 ， 是 将 对 象 以 树 形 结构 组 织 起 来 ， 以 达成 “部 分 和 整体 ”的 层次 
结构 ， 使 得 客户 端 对 单个 对 象 和 组 合 对 象 的 使 用 具有 一 致 性 。 从 定义 中 可 以 得 到 使 
用 组 合 模式 的 环境 为 :在 设计 中 想 表 示 对 象 的 “部 分 和 整体 ”层次 结构 ， 希 望 用 户 
忽略 组 合 对 象 与 单个 对 象 的 不 同 ， 统 一 地 使 用 组 合 结构 中 的 所 有 对 象 。 以 下 是 组 合 
模式 的 组 成 。 

O 抽象 构件 角色 (Component): 它 为 组 合 中 的 对 象 声 明 接口 ， 也 可 以 为 共有 接 
实现 默认 行为 。 

O 树叶 构件 角色 (Lead: 在 组 合 中 表示 叶 节 点 对 象 一 一 没有 子 节点 ， 实 现 抽象 构 
件 角色 声明 的 接口 。 

O 树枝 构件 角色 (Composite): 在 组 合 中 表示 分 支 节点 对 象 一 有 子 节点 ， 实 现 
抽象 构件 角色 声明 的 接口 ， 并 存储 子 部 件 。 组 合 模式 的 类 图 表示 如 图 2-10 所 示 。 


| 
A 


| Composite | 


图 2-10 组合 模式 类 关系 


O 组 合 模式 的 应 用 场景 : 
e 使 客户 端 调用 更 简单 ， 客 户 端 可 以 一 致 地 使 用 组 合 结构 或 其 中 单个 对 象 ， 用 户 
就 不 必 关 心 自 己 处 理 的 是 单个 对 象 还 是 整个 组 合 结构 ， 这 就 简化 了 客户 端 代码 。 
© 在 组 合体 内 加 入 对 象 部 件 时 ， 客 户 端 不 必 因 为 加 入 了 新 的 对 象 部 件 而 更 改 代 码 。 
这 一 点 符合 开 闭 原则 的 要 求 ， 对 系统 的 二 次 开发 和 功能 扩展 很 有 利 。 
e 组 合 模式 不 容易 限制 组 合 中 的 构件 。 
O 本 章 组 合 模式 应 用 : 建立 业务 树 的 根 节点 MHRootComponent 作为 所 有 物 联 
网 设备 的 根 节点 ， 根 节点 下 面 可 以 按照 厂家 和 设备 来 进行 设计 业务 树 ， 图 2-11 是 按 
照 Unit A 厂家 的 智能 终端 运动 设备 Sport 和 血压 设备 BP 来 设计 的 ， 其 中 Unit A 
Sport Component 设备 可 以 包括 5 个 数据 包 ,Unit A_BPComponent 设备 包括 3 个 数据 包 ， 
如 果 有 新 的 厂家 或 者 设备 接 入 时 , 可 以 在 业务 树 上 进行 灵活 添加 , 而 不 影响 已 经 有 的 厂 
家 或 者 设备 节点 ， 实 现 了 真正 的 灵活 可 扩展 性 设计 。 基 于 组 合 模 式 的 UML 设计 图 如 
图 2-11 所 示 。 
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<<hterface>> 
Component 
adá(t: Component): void M. 


+remove(t: Component): void ~ 
+getDataFromBuffer( buffer: LoBuffer): PackageData pee ji = 
+generateRealPackageData(buffer: IoBuffer]: PackageData Componentioritar 
++compoent a 

D): ComponentlOFiter 


A (component: Component) 
+messageRecelved(nextFiter: NextFiter, session: IoSession, message: Object): void 
i 


<<abstract>> 


PacketFilterComponent 
MHRootComponent. 
cec) 
+add() m +check(buffer: loBuffer): boolean 
++generateRealPackageData(buffer: LoBuffer): PackageData 


+remove() 
aetDatafromBuffert) pr add 


UnitABPComponent UnitASportComponent 
+check(buffer: LoBuffer): boolean +checkbuffer: loBuffer): boale 
++generateRea Packagel affer r: IoBuffer): PackageData aereretehesiPacageDuta (buffer: IoBuffer PaclageData 


N INS 


+check(buffer: IoBuffer): boolean +check(buffer: IoBuffer): booleal +check(buffer: Buffer): boolean 
+generateRealPackageData(tuffer: IoBuffer PackageData| +generateRealPackageData(buffer: IoBuffer): PactageData| \\+generateReaPsckageData(buffer: IoBuffer): PackageData 
NoSTwoWayParser 


SportLogoutParser 


NoSOneWayParser 


BPNo4SynsTimeParer ea ++check(buffe JoBuffer): boolean 


Ne ne Peal r: loBuffer): PackageData| | +9enerateReaßkckageData(buffer: IoBuffer): PackageData 


+checkbuffer: IoBuffer): boolean 
AgenerateRealPackageData(buffer: loBuffer): Package CMta| 


GE NoBThreeWayParser 


+check(buffer; IoBuffer): boolear 
a der bet APA ee loßuffer): PackageData 


图 2-11 采集 服务 解码 器 类 关系 
225 按照 设备 的 数据 包 状 态 进行 解析 


策略 模式 和 状态 模式 都 是 很 重要 的 数据 业务 处 理 思 想 ， 更 是 主流 的 分 而 治之 的 思想 。 

(1) 策略 模式 〈Strategy): 属于 对 象 行为 型 设计 模式 ， 主 要 是 定义 一 系列 的 算法 或 
者 业务 处 理 方法 , 把 这 些 或 者 业务 处 理 方法 一 个 个 封装 成 拥有 共同 接口 的 单独 的 类 , 并 
且 使 它们 之 间 可 以 互 换 。 策略 模式 使 这 些 算法 在 客户 端 调用 它们 时 能 够 互 不 影响 。 这 种 
模式 会 带 来 什么 样 的 好 处 呢 ? 它 将 算法 的 使 用 和 算法 本 身分 离 ， 即 将 变化 的 具体 算法 
封装 了 起 来 ,降低 了 代码 的 看 合 度 ， 系 统 业务 策略 的 更 变 仅 需 少量 修改 。 策略 模式 由 以 
下 3 个 角色 组 成 ， 如 图 2-12 所 示 。 

O 算法 使 用 环境 (Context) 角色 : 算法 被 引用 到 这 里 和 一 些 其 他 的 与 环境 有 关 的 
操作 一 起 来 完成 任务 。 

O 抽象 策略 (Strategy) 角色 : 定义 了 所 有 具体 策略 角色 通用 接口 。 在 Java PÈ 
通常 由 接口 或 者 抽象 类 来 实现 。 

© 具体 策略 (Concrete Strategy) 角色 : 实现 了 抽象 策略 角色 定义 的 接口 。 
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Context |. >0 


Strategy 


Strategy1 Strategy2 


212 ”策略 模式 类 关系 


O 策略 模式 的 主要 应 用 场景 如 下 : 

o 系统 需要 能 够 在 几 种 算法 中 快速 地 切换 。 

© 系统 中 有 一 些 类 它们 仅 行为 不 同时 ， 可 以 考虑 采用 策略 模式 来 进行 重 构 。 

e 系统 中 存在 多 重 条 件 选择 语句 时 ， 可 以 考虑 采用 策略 模式 来 重 构 。 

(2) 状态 模式 : 允许 一 个 对 象 在 其 内 部 状态 改变 时 改变 它 的 行为 ， 这 个 对 象 看 起 来 
似乎 修改 了 它 的 类 。 为 了 能 够 让 程序 根据 不 同 的 外 部 情况 来 做 出 不 同 的 响应 , 最 直接 的 
方法 就 是 在 程序 中 将 这 些 可 能 发 生 的 外 部 情况 全 部 考虑 到 , 使 用 if else 语句 来 进行 代码 
响应 选择 。 但 是 这 种 方法 对 于 复杂 一 点 的 状态 判断 ， 就 会 显得 杂乱 无 章 ， 容 易 产生 错 误 ; 
而 且 增加 一 个 新 的 状态 将 会 带 来 大 量 的 修改 。 这 个 时 候 “ 能 够 修改 自身 ”的 状态 模式 的 
引入 也 许 是 个 不 错 的 主意 。 状 态 模式 可 以 有 效 地 替换 程序 中 大 量 的 if else 语句 。 主 要 实 
现 过程 是 将 不 同 条 件 下 的 行为 封装 在 一 个 类 里 面 , 再 给 这 些 类 配置 一 个 统一 的 父 类 来 约 
束 它们 。 以 下 为 状态 模式 的 角色 组 成 ， 如 图 2-13 所 示 。 


2-13 ”状态 模式 类 关系 


O 使 用 环境 (Context) 角色 : 客户 程序 是 通过 它 来 满足 自己 的 需求 。 它 定义 了 客 
户 程 序 需 要 的 接口 ， 并 且 维 护 一 个 具体 状态 角色 的 实例 ， 这 个 实例 来 决定 当前 的 状态 。 

© RE (State) 角色 : 定义 一 个 接口 以 封装 与 使 用 环境 角色 的 一 个 特定 状态 相关 
的 行为 。 

® 具体 状态 (Concrete State) 角色 : 实现 状态 角色 定义 的 接口 。 

O 状态 模式 的 应 用 场景 如 下 : 

e 一 个 对 象 的 行为 取决 于 它 的 状态 ， 并 且 它 必须 在 运行 时 刻 根据 状态 改变 它 的 行为 。 
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e 一 个 操作 中 含有 庞大 的 多 分 支 的 条 件 语句 ， 且 这 些 分 支 依赖 于 该 对 象 的 状态 。 

e 状态 模式 和 策略 模式 的 最 大 区 别 是 : 各 个 具体 的 状态 是 有 前 后 发 生 关 系 的 ， 可 
能 需要 依次 执行 。 

3) 本 章 的 数据 处 理 中 ， 采 用 策略 和 状态 模式 ，UML 设计 图 如 图 2-14 所 示 。 


图 2-14 数据 包 状态 类 关系 
226 ”按照 通用 方式 进行 高 并 发 入 库 


JDBC 数据 库 连 接 使 用 DriverManager 来 获取 ， 每 次 向 数据 库 建立 连接 时 都 要 将 
Connection 加 载 到 内 存 中 ， 再 验证 用 户 名 和 密码 〈 需 要 花费 0.05 一 1s 的 时 间 )， 这 样 的 
方式 将 会 消耗 大 量 的 资源 和 时 间 。 究 其 原因 , 数据 库 的 连接 资源 并 没有 得 到 很 好 的 重复 
利用 。 若 系统 在 线 用 户 达 到 上 千 个 ， 频 繁 地 进行 数据 库 连接 操作 将 占用 很 多 的 系统 资源 ， 
严重 的 甚至 会 造成 服务 器 的 崩溃 。 同 时 如 果 程序 出 现 异 常 而 未 能 关闭 , 将 会 导致 数据 库 
系统 中 的 内 存 泄 漏 ， 最 终 将 导致 重启 数据 库 。 

为 解决 以 上 问题 , 可 以 采用 数据 库 连接 池 技 术 。 数 据 库 连接 池 的 基本 思想 : 为 数据 
库 连 接 建立 一 个 “缓冲 池 ”。 预 先 在 缓冲 池 中 放 入 一 定数 量 的 连接 ， 当 需要 建立 数据 库 
连接 时 ， 只 需 从 “缓冲 池 ” 中 取出 一 个 ， 使 用 完毕 之 后 再 放 回去 。 数 据 库 连 接 池 负 责 分 
配 、 管 理 和 释放 数据 库 连接 ， 它 允许 应 用 程序 重复 使 用 一 个 现 有 的 数据 库 连 接 ， 而 不 是 
重新 建立 一 个 , 连接 池 可 以 设置 初始 化 连接 数 和 最 大 连接 数 。 数 据 库 连 接 池 技术 有 如 下 
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几 个 优点 。 

(1) 资源 可 重用 : 由 于 数据 库 连 接 得 以 重用 ， 避 免 了 频繁 创建 ， 释 放 连 接 引起 的 大 
量 性 能 开销 。 在 减少 系统 消耗 的 基础 上 ， 但 是 也 增加 了 系统 运行 环境 的 平稳 性 。 

(2) 系统 可 加 速 : 数据 库 连接 池 在 初始 化 过 程 中 ,往往 已 经 创建 了 若干 数据 库 连 接 
置 于 连接 池 中 备用 。 此 时 连接 的 初始 化 工作 均 已 完成 。 对 于 业务 请 求 处 理 而 言 ， 直接 利 
现 有 可 用 连接 避免 了 数据 库 连接 初始 化 和 释放 过 程 的 时 间 开 销 , 从 而 减少 了 系统 的 响 
应 时 间 。 

(3) 连接 数 可 共享 : 新 的 资源 分 配 手段 对 于 多 应 用 共享 同一 数据 库 的 系统 而 言 ， 可 
在 应 用 层 通 过 数据 库 连 接 池 的 配置 实现 某 一 应 用 最 大 可 用 数据 库 连接 数 的 限制 , 避免 某 
一 应 用 独占 所 有 的 数据 库 资 源 。 

(4) 连接 可 管理 : 避免 数据 库 连接 泄露 在 较为 完善 的 数据 库 连接 池 实现 中 ,可 根据 
预先 的 占用 超时 设 定 , 强制 回收 被 占用 连接 , 从 而 避免 了 常规 数据 库 连接 操作 中 可 能 
现 的 资源 泄露 。 

本 章 所 采用 的 是 C3PO 连接 池 。C3P0 是 目前 最 成 熟 的 数据 库 连 接 池 技术 之 一 ， 具 
体内 容 将 在 后 面 进行 介绍 。 


23 ”核心 技术 讲解 及 模块 化 设计 


2.3.1 Spring Maven Web 服务 构建 


C1) Web 服务 的 入 口 web.xml 文件 是 中 央 控 制 器 ， 主 要 实现 spring 和 日 志 的 配置 。 
配置 实现 如 下 : 


<?xml version-"1.0" encoding="UTF-8"?> 
<web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns= 
"http: //java.sun.com/xml/ns/javaee" xsi:schemaLocation="http://java.sun. 
com/xml/ns/javaee http://java.sun.com/xml/ns/javaee/web-app 2 5.xsd" id= 
"WebApp ID" version="2.5"> 
<display-name>AggregateServer</display-name> 
<welcome-file-list> 
<welcome-file>index.html</welcome-file> 
<welcome-file>index.htm</welcome-file> 
<welcome-file>index.jsp</welcome-file> 
<welcome-file>default.html</welcome-file> 
<welcome-file>default.htm</welcome-file> 
<welcome-file>default.jsp</welcome-file> 
</welcome-file-list> 
<context-param> 
<param-name>log4jConfigLocation</param-name> 
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Xparam-value»classpath:10g4j.properties«/param-value» 
</context-param> 
<context-param> 
<param-name>log4jRefreshInterval</param-name> 
<param-value>60000</param-value> 
</context-param> 
<context-param> 
<param-name>contextConfigLocation</param-name> 
<param-value>WEB-INF/applicationContext.xml</param-value> 
</context-param> 
<filter> 
<filter-name>CharacterEncodingFilter</filter-name> 
<filter-class>org.springframework.web.filter.CharacterEncodingFilter 
</filter-class> 
<init-param> 
<param-name>encoding</param-name> 
<param-value>UTF-8</param-value> 
</init-param> 
<init-param> 
<param-name>forceEncoding</param-name> 
<param-value>true</param-value> 
</init-param> 
</filter> 
<filter-mapping> 
<filter-name>CharacterEncodingFilter</filter-name> 
<url-pattern>/*</url-pattern> 
</filter-mapping> 
<listener> 
<listener-class>org.springframework.web.context.ContextLoaderListener 
</listener-class> 
</listener> 
<listener> 
<listener-class>org.springframework.web.util.Log4jConfigListener 
</listener-class> 
</listener> 
<welcome-file-list> 
<welcome-file>main.html</welcome-file> 
</welcome-file-list> 
<session-config> 
<session-timeout>720</session-timeout> 
</session-config> 
</web-app> 


(2) Spring 核心 配置 application .xml 文件 , 主要 用 于 数据 库 配 置 文件 的 读 取 、Spring 
集成 mina 配置 文件 的 加 载 。 配 置 实现 如 下 : 
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<?xml version="1.0" encoding="UTF-8"?> 

<beans xmlns="http://www.springframework.org/schema/beans" 

xmlns:xsi="http: //www.w3.org/2001/XMLSchema—instance" xmlns:aop= "http: // 
www. springframework.org/schema/aop" 


xmlns:tx="http://www.springframework.org/schema/tx" xmlns:jms="http:// 
www. springframework.org/schema/jms" 
xmlns:context="http: //www.springframework.org/schema/context" 
xsi:schemaLocation="http: //www.springframework.org/schema/beans http:// 
www. springframework.org/schema/beans/spring-beans-3.2.xsd 
http: //www.springframework.org/schema/context http://www. 
spring framework.org/schema/context/spring-context-3.2.xsd 
http: //www.springframework.org/schema/tx 
http: //www.springframework.org/schema/tx/spring-tx-3.2.xsd 
http: //www.springframework.org/schema/aop 
http: //www.springframework.org/schema/aop/spring-aop-3.2.xsd 
http: //www.springframework.org/schema/jms 
http://www. springframework.org/schema/jms/spring-—jms-3.2.xsd"> 
<!-- 注解 扫描 器 --> 
<!-- 数据 库 配置 文件 读 取 > 
<bean 
class="org.springframework.beans.factory.config. 
PropertyPlaceholderConfigurer"> 
<property name="locations"> 
<list> 
<value>classpath:com/Config/SysConf.properties</value> 
</list> 
</property> 
</bean> 
<import resource="minaContext.xml"/> 
</beans> 


(3) 配置 Spring 集成 Mina 配置 文件 minaContext.xml， 主 要 实现 mina 的 ioAcceptor, 
IoSession, IoFilter, IoHnadler 以 及 自 定义 解码 器 组 装 等 相关 配置 。 配 置 实现 如 下 : 


<?xml version="1.0" encoding="UTF-8"?> 

<beans xmlns="http://www.springframework.org/schema/beans" 

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:context= 
"http: //www.springframework.org/schema/context" 

xsi:schemaLocation="http: / /www.springframework.org/schema/beans http: // 
www.springframework.org/schema/beans/spring-beans.xsd 

http://www.springframework.org/schema/context http://www. 
spring framework.org/schema/context/spring-context.xsd"> 

<!-- 处 理 逻 辑 --> 

<bean id="handler" class="com.cloud.mina.unit a.strategy. 
StrategyFactroy Handler” /> 

<bean id="unitASportsComponent" 
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class="com.cloud.mina.component.filter.UnitASportComponent"> 
<property name="list"> 
<list> 
<bean class="com.cloud.mina.component.unit_a.sport. 
SportLo ginParser" /> 
<bean class="com.cloud.mina.component.unit a.sport. 
No80ne WayParser" /> 
Xbean class-"com.cloud.mina.component.unit a.sport. 
No8Two WayParser" /» 
Xbean class-"com.cloud.mina.component.unit a.sport. 
No8Three WayParser" /» 
Xbean class-"com.cloud.mina.component.unit a.sport. 
Sport LogoutParser" /» 
«/list» 
</property> 
</bean> 
<bean id="unitABPComponent" class="com.cloud.mina.component.filter. 
Unit ABPComponent"> 
<property name="list"> 
<list> 
<bean class="com.cloud.mina.component.unit a.bp. 
BPNolLogin Parer" /> 
<bean class="com.cloud.mina.component.unit a.bp. 
BPNo4Syns TimeParer" /> 
<bean class="com.cloud.mina.component.unit_a.bp. 
BPNo8Data Parer" /> 
</list> 
</property> 
</bean> 
<!-- 数据 包 解 码 器 --> 
<bean id="codec" class="com.cloud.mina.component.filter. 
ComponentIOFilter"> 
<constructor-arg index="0"> 
<bean class="com.cloud.mina.component.filter.MHRootComponent"> 
<property name="list"> 
<list> 
<ref bean="unitASportsComponent"></ref> 
<ref bean="unitABPComponent"></ref> 


</list> 
</property> 
</bean> 
</constructor-arg> 
</bean> 
<!-- 多 线程 处 理 过 滤器 ,为 后 面 的 操作 开启 多 线程 , 一 般 放 在 编 解 码 过 滤器 之 后 , 开始 业务 逻辑 
处 理 --> 
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<bean id="executors" class="org.apache.mina.filter.executor. 
Executor Filter" /> 
<!-- Mina 自 带 日 志 过 滤器 ， 默 认 级 别 为 debug --» 
<bean id="loggerFilter" class="org.apache.mina.filter.logging. 
Logging Filter"> 
<property name="messageReceivedLogLevel" ref="info"></property> 
<property name="exceptionCaughtLogLevel" ref="info"></property> 
</bean> 
<!-- 枚 举 类 型 ， 依 赖 注入 ， 需 要 先 通过 此 类 进行 类 型 转换 --> 
<bean id="info" 
class="org.springframework.beans.factory.config. 
FieldRetrieving FactoryBean"> 
<property name="staticField" value="org.apache.mina.filter.logging. 
LogLevel.INFO" /> 


</bean> 
<bean id="filterChainBuilder" 
class="org.apache.mina.core.filterchain.DefaultIoFilterChainBuilder"> 


<property name="filters"> 
<map> 
<entry key="codec" value-ref="codec" /> 
<entry key-"logger" value-ref-"loggerFilter" /> 
<entry key="executors" value-ref="executors" /> 
</map> 
</property> 
</bean> 
<bean id="defaultLocalAddress" class="java.net.InetSocketAddress"> 


<constructor-arg index="0" value="${tcpPort}"></constructor-arg> 
</bean> 
<!-- session config --> 
<bean id-"sessionConfig" factory-bean-"ioAcceptor" factory-method= 
"get SessionConfig"> 
<property name="readerIdleTime" value="40" /> 
<property name="minReadBufferSize" value="512" /> 
<property name="maxReadBufferSize" value="10240" /> 
<!--<property name="readBufferSize" value="20480"/> --><!--<property 
name="receiveBufferSize" value="5000"/> --> 
</bean> 
<bean id="ioAcceptor" class="org.apache.mina.transport.socket.nio. 
Nio SocketAcceptor" 
init-method="bind" destroy-method="unbind"> 
<!-- 默认 启用 的 线程 个 数 是 CPU 的 核 数 +1, > 
<constructor-arg index="0" value="10"></constructor-arg> 
<property name="defaultLocalAddress" ref="defaultLocalAddress" /> 
<property name="handler" ref="handler" /> 
<property name="filterChainBuilder" ref="filterChainBuilder" /> 
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</dependency> 

<dependency> 
<groupId>org.s1f4j</groupId> 
<artifactId>slf4j-log4j12</artifactId> 
<version>1.6.6</version> 

</dependency> 

<dependency> 
<groupId>commons-httpclient</groupId> 
<artifactId>commons-httpclient</artifactId> 
<version>3.1</version> 

</dependency> 


<!--https://mvnrepository.com/artifact/commons-logging/commons- 
logging --> 
<!-- https://mvnrepository.com --> 
<dependency> 
<groupId>commons-logging</groupId> 
<artifactId>commons-logging</artifactId> 
<version>1.1.3</version> 
</dependency> 
<dependency> 
«groupId»10g4j«/groupId» 
<artifactId>log4j</artifactId> 
<version>1.2.17</version> 
</dependency> 
</dependencies> 
</project> 


2.3.2 Spring Boot 微服 务 构建 


在 大 数据 和 互联 网 高 速 发 展 时 期 ,平台 系统 如 何 满足 需求 变化 和 用 户 增长 快 的 通用 
需求 ? 从 系统 架构 设计 的 角度 来 说 , 构建 灵活 、 易 扩展 的 系统 来 应 对 日 新 月 异 的 需求 变 
化 ; 从 系统 质量 特性 的 角度 来 说 , 构建 可 伸缩 性 、 高 可 用 性 系统 才能 满足 用 户 快速 增长 
的 需求 。 微 架构 通过 组 件 化 和 服务 化 的 设计 思想 , 可 以 解决 独立 部 署 和 快速 迭代 开发 的 
变化 需求 。Spring Boot 是 Java 领域 最 优秀 的 微服 务 架构 代表 ， 就 是 基于 Spring 开发 ， 
助力 开发 者 快速 、 敏 捷 地 开发 新 一 代 基于 Spring 框架 的 应 用 程序 。 也 就 是 说 ， 它 不 是 
FAK EH Spring 的 解决 方案 ， 而 是 和 Spring 框架 紧密 结合 的 ， 同 时 集成 了 大 量 的 第 三 
方 库 配置 (如 Redis, MongoDB, Jpa, RabbitMQ, Quartz, Mina 等 )，Spring Boot 42 
成 第 三 方 库 可 以 “ 插 拔 式 ” 方 式 使 用 ， 让 开发 者 减少 配置 和 版 本 兼容 性 考虑 ， 专 注 于 业 
务 罗 辑 设 计 和 开发 。 下 面 开 始 Spring Boot 的 微服 务 构 建 ， 具 体 步 又 如 下 。 

(1) 配置 Spring Boot 的 pom.xml 文件 ， 用 于 描述 该 项 目 Maven 信息 以 及 项 目 中 用 
到 的 jar 包 依 赖 ， 对 比 Spring 版 本 会 发 现 ，Spring boot 相关 依赖 较 少 ， 其 实 不 然 。 上 面 
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有 提 到 ，Spring Boot 是 基于 Spring 的 ， 故 想 要 使 用 Spring Boot， 则 需要 先 引入 spring. 
但 是 由 于 是 Maven 项 目 , 我们 只 需要 指定 Spring Boot 的 版 本 ， 则 Maven 会 自动 下 载 其 
对 应 的 Spring 依赖 包 ， 这 也 就 是 Maven 的 一 大 特色 。 配 置 实现 如 下 : 


<?xml version="1.0" encoding="UTF-8"?> 


<project xmlns="http://Maven.apache.org/POM/4.0.0" xmlns:xsi="http:// 
www.w3.org/2001/XMLSchema-instance" 

xsi:schemaLocation="http://Maven.apache.org/POM/4.0.0 http://Maven.apache. 
org/xsd/Maven-4.0.0.xsd"> 

<modelVersion>4.0.0</modelVersion> 

<groupId>com.cloud.bigdata</groupId> 

<artifactId>BD AggregateSever B</artifactId> 

<version>0.0.1-SNAPSHOT</version> 

<packaging>jar</packaging> 


<name>service-hi</name> 
<description>Demo project for Spring Boot</description> 
<parent> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-starter-parent</artifactId> 
<version>1.5.2.RELEASE</version> 
<relativePath/><!-- lookup parent from repository --> 
</parent> 
<properties> 
<project .build.sourceEncoding>UTF-8</project .build.sourceEncoding> 
<project . reporting. outputEncoding>UTF-8</project. reporting. 
output Encoding> 
<java.version>1.8</java.version> 
</properties> 
<dependencies> 
<dependency> 
<groupId>org.springframework.cloud</groupId> 
<artifactId>spring-cloud-starter-eureka</artifactId> 
</dependency> 
<dependency> 
<groupId>org.springframework.cloud</groupId> 
<artifactId>spring-cloud-starter-ribbon</artifactId> 
</dependency> 
<dependency> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-starter-web</artifactId> 
</dependency> 
<dependency> 
«groupId»org.springframework.boot«/groupId» 
<artifactId>spring-boot-starter-test</artifactId> 
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<artifactId>mysql-connector-java</artifactId> 
</dependency> 
<dependency> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-configuration-processor</artifactId> 
<optional>true</optional> 
</dependency> 
</dependencies> 
<dependencyManagement> 
<dependencies> 
<dependency> 
<groupId>org.springframework.cloud</groupId> 
<artifactId>spring-cloud-dependencies</artifactId> 
<version>Dalston.RC1</version> 
<type>pom</type> 
<scope>import</scope> 
</dependency> 
</dependencies> 
</dependencyManagement> 
<build> 
<plugins> 
<plugin> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-Maven-plugin</artifactId> 
</plugin> 
</plugins> 
</build> 
<repositories> 
<repository> 
<id>spring-milestones</id> 
<name>Spring Milestones</name> 
<url>https://repo.spring.io/milestone</url> 
<snapshots> 
<enabled>false</enabled> 
</snapshots> 
</repository> 
</repositories> 
</project> 


(2) 在 项 目 编译 路 径 resources 文件 夹 下 配置 Spring Boot 的 核心 文件 application. 
properties， 该 文件 主要 用 于 指定 服务 的 端口 、 访 问 路 径 、mina 的 参数 配置 以 及 eureka 
注册 中 心 相关 配置 。 配 置 实现 如 下 : 


server.port:8086 


#server.context-path:/boot aggregate 
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spring.application.name=boot-aggregate 
#springCloud 注册 中 心服 务 地址 
eureka.client.serviceUrl.defaultZone=http://localhost:8761/eureka/ 
#restTemplate 饿 汉 式 加 载 服务 
ribbon.eager-load.enabled=true 
ribbon.eager-load.clients=boot-dispatch 
#mina 的 相关 配置 

mina.ip=127.0.0.1 

mina.port=8888 

mina.readerIdleTime=600 
mina.minReadBufferSize=512 
mina.maxReadBufferSize=102400 


(3) Spring Boot 的 启动 类 AggregateBootSatrter (@Spring BootApplication 注解 声明 
该 类 为 Spring Boot 的 入 口 ), 主要 实现 Spring 容器 的 初始 化 以 及 服务 器 的 开启 。 代 码 实 
现 如 下 : 


package com.cloud.mina.Spring Boot; 


import org.springframework.boot.SpringApplication; 

import org.springframework.boot.autoconfigure.Spring BootApplication; 
import org.springframework.cloud.client.discovery.EnableDiscoveryClient; 
import org.springframework.context.annotation.ComponentScan; 


/** 
* Spring Boot 的 启动 器 


* (author changyaobin 


=; 

@spring BootApplication//spring boot 启动 类 

@ComponentScan (basePackages = { "com.cloud.mina" })// 扫 描 该 包 下 的 所 有 注解 ， 
// 初 始 化 到 spring 容器 中 

@EnableDiscoveryClient 

public class AggregateBootSatrter { 

public static void main(String[] args) { 

SpringApplication.run(AggregateBootSatrter.class,args); 
} 
} 


(4) mina 的 核心 配置 类 MinaConfig， 主 要 实现 自 定义 解码 器 的 组 装 、mina 以 及 
restTemplate (微服 务 之 间 相 互 调用 ) 配置, 用 于 替代 项 目 Spring 版 本 的 minaContext.xml 
文件 。 代 码 实 现 如 下 : 
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package com.cloud.mina.Spring Boot; 


import java.io.IOException; 

import java.net.InetSocketAddress; 

import javax.annotation.Resource; 

import org.apache.mina.core.filterchain.IoFilter; 

import org.apache.mina.core.service.IoAcceptor; 

import org.apache.mina.core.session.IdleStatus; 

import org.apache.mina.core.session.IoSessionConfig; 

import org.apache.mina.filter.executor.ExecutorFilter; 

import org.apache.mina.filter.logging.LoggingFilter; 

import org.apache.mina.transport.socket.nio.NioSocketAcceptor; 
import org.springframework.boot.context.properties.ConfigurationProperties; 
import org.springframework.cloud.client.loadbalancer.LoadBalanced; 
import org.springframework.context.annotation.Bean; 

import org.springframework.context.annotation.Configuration; 
import org.springframework.web.client.RestTemplate; 

import com.cloud.mina.component.filter.ComponentIOFilter; 
import com.cloud.mina.component.filter.MHRootComponent; 

import com.cloud.mina.component.filter.UnitASportComponent; 
import com.cloud.mina.component.unit a.sport.No80neWayParser; 
import com.cloud.mina.component.unit a.sport.No8ThreeWayParser; 
import com.cloud.mina.component.unit a.sport.No8TwoWayParser; 
import com.cloud.mina.component.unit a.sport.SportLoginParser; 
import com.cloud.mina.component.unit a.sport.SportLogoutParser; 
import com.cloud.mina.unit a.strategy.StrategyFactroyHandler; 
import com.cloud.mina.util.Logger; 


per 

* mina 的 核心 配置 文件 

* 

* @author changyaobin 

* 

sy 

@SuppressWarnings (value = "all") 
@Configuration 
@ConfigurationProperties (prefix = "mina") 
public class MinaConfig { 
private String ip; 

private int port; 

private int readerIdleTime; 
private int minReadBufferSize; 


private int maxReadBufferSize; 


// 智能 终端 运动 的 底层 解析 包 
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(Resource (name = "sportLoginParser") 

private SportLoginParser sportLoginParser; 
(Resource (name = "no80neWayParser") 

private No80neWayParser no80neWayParser; 
@Resource (name = "no8TwoWayParser") 

private No8TwoWayParser no8TwoWayParser; 
@Resource (name = "no8ThreeWayParser") 
private No8ThreeWayParser no8ThreeWayParser; 
@Resource (name = "sportLogoutParser") 
private SportLogoutParser sportLogoutParser; 


/** 

* 设置 mina ff) ioHandler 自 定 义 处 理 类 

* 

* @return 

Lay 

@Bean 

public StrategyFactroyHandler getIoHandler () { 
StrategyFactroyHandler strategyFactroyHandler = new 

StrategyFactroy Handler (); 

strategyFactroyHandler.setRestTemplate (restTemplate ()); 
return strategyFactroyHandler; 

} 

/** 

* Mina [f] IoAccptor 设置 

* 

* (return 

* (throws IOException 

= 

@Bean 

public IoAcceptor getIoAccptor ()throws IOException { 
IoAcceptor acceptor = new NioSocketAcceptor (); 
IoSessionConfig sessionConfig = acceptor.getSessionConfig(); 
sessionConfig.setIdleTime (IdleStatus.READER IDLE, readerIdleTime) ; 
sessionConfig.setMinReadBufferSize (minReadBufferSize) ; 
sessionConfig.setMaxReadBufferSize (maxReadBufferSize) ; 
acceptor.setDefaultLocalAddress (getInetAddress ()); 
acceptor.getFilterChain() .addLast ("codec",getIOFilter ()); 
acceptor.getFilterChain() .addLast ("logger", getLogFilter()); 
acceptor.getFilterChain() .addLast ("executors",getExecutorFilter ()); 
acceptor.setHandler (getIoHandler()); 
acceptor.bind(); 
Logger.writeLog ("监听 端口 " + port + "...."); 
return acceptor; 
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public int getMinReadBufferSize() { 
return minReadBufferSize; 

} 

public void setMinReadBufferSize (int minReadBufferSize) { 
this.minReadBufferSize = minReadBufferSize; 

} 

public int getMaxReadBufferSize () { 
return maxReadBufferSize; 

} 

public void setMaxReadBufferSize (int maxReadBufferSize) { 
this.maxReadBufferSize = maxReadBufferSize; 

} 

} 


233 数据 包 定义 和 实现 
数据 包 定 义 主要 包括 : 定义 抽象 类 包 PackageData， 抽 象 出 数据 包 的 公共 字段 ， 


也 就 是 每 一 个 厂家 的 智能 终端 运动 数据 包 必 带 的 字段 头 ， 如 UnitA 厂家 的 智能 终端 
运动 数据 包 的 名 称 和 类 型 等 。 定 义 UnitA 厂家 的 智能 终端 运动 包 有 5 个 子 类 ， 分 别 
是 登录 包 LoginPacket, 1 号 包 No8OneWayPacket、2 号 包 No8TwoWayPacket、3 号 包 
No8ThreeWayPacket 和 退出 包 LogoutPacket。 每 一 个 包 的 字段 定义 完全 参照 设备 接口 规 
范 进行 设计 ， 代 码 实 现 如 下 。 


COD 数据 包 抽象 类 PackageData， 声 明 数 据 包 名称 、 类 型 、 设 备 id. app 类 型 等 通 


用 属性 。 代 码 实现 如 下 : 


package com.cloud.mina.unit a.sportpackage; 


/** 


* Unita 智能 终端 运动 数据 包 抽象 父 类 
* 


* @author changyaobin 
* 


zh 

public abstract class PackageData { 
protected String name = ""; 
protected String type = ""; 
protected String deviceID = ""; 
protected String patientID = ""; 
protected String company = ""; 
protected String password = ""; 
protected String appType = ""; 


public String getName () { 
return name; 
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(2) 数据 登录 包 LoginPacket， 定 义 登录 数据 包 信息 。 代 码 实现 如 下 : 


(3) 数据 1 号 包 No8OneWayPacket， 定 义 1 号 包 的 类 属性 ， 具 体 参考 传输 协议 。 
代码 实现 如 下 : 
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(4) 数据 2 号 包 No8TwoWayPacket， 定 义 2 号 包 的 类 属性 ， 可 以 参考 传输 协议 。 
代码 实现 如 下 : 


(5) 数据 3 号 包 No8ThreeWayPacket, EX 3 号 包 的 类 属性 。 代 码 实现 如 下 : 
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(6) 数据 退出 登录 包 LogoutPacket， 继 承 父 类 PackageData 的 通用 属性 。 代 码 实现 如 下 : 


2.3.4 业务 树 构建 和 实现 

业务 树 构建 是 按照 设备 类 型 和 数据 包 类 型 进行 的 , 目的 是 从 字 节 流 解 码 转换 为 对 象 
的 过 程 。 同 时 为 了 保证 业务 的 高 度 扩展 性 ， 本 次 设计 通过 工厂 、 组 合 、 和 迭代 的 设计 模式 
实现 。 实 现 过 程 如 下 。 

(1) 解码 器 接口 Component， 主 要 完成 解码 器 Component 的 定义 ， 包 括 添加 子 解 
码 器 、 移 除 子 解码 器 和 解析 数据 包 等 。 代 码 实现 如 下 : 
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public interface Component ( 

// 添加 子 解码 器 

public void add(Component t); 

11 移 除 子 解码 器 

public void remove (Component t); 

// 解析 数据 包 

public PackageData getDataFromBuffer (IoBuffer buffer); 

// 从 IOBuffer 中 解析 数据 包 

public PackageData generateRealPackageData (IoBuffer buffer); 
} 


(2) 自 定义 过 滤器 ComponentIOFilter， 主 要 功能 是 重 写 mina 的 ioFilter 核心 方 
法 messageReceived， 将 我 们 组 装 的 解码 器 注入 ， 调 用 自 定义 解码 器 完成 数据 的 解析 以 
及 将 数据 包 传递 到 下 一 个 ioFilter。 代 码 实现 如 下 : 


package com.cloud.mina.component.filter; 


import org.apache.mina.core.buffer.IoBuffer; 

import org.apache.mina.core.filterchain.IoFilterAdapter; 
import org.apache.mina.core.session.IoSession; 

import com.cloud.mina.unit a.sportpackage.PackageData; 
/** 


* mina [fJ IOFilter 自 定 义 扩展 类 


* 


* @author changyaobin 
* 


EA 
public class ComponentIOFilter extends IoFilterAdapter { 
public Component component; 


public ComponentIOFilter (Component component) { 
super (); 
this.component = component; 


public ComponentIOFilter () { 
super (); 


// 数据 接收 转换 核心 方法 


@override 
public void messageReceived (NextFilter nextFilter, IoSession session, 
Object message) throws Exception { 
// 1. 调 用 接口 component 实现 字 节 流转 为 Java HR 
// data = component.getDataFromBuffer (ioBuffer); 
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// 2. 递 归 调 用 messageReceived, 处 理 下 一 个 设备 
// nextFilter.message Received(session, data); 
packageHandle (nextFilter, session, message); 


private void packageHandle (NextFilter nextFilter, IoSession session, 


} 
} 


Object message) { 


PackageData data = null; 
// 1. Ali message 是 字 节 流 还 是 Java XI $ PackageData 
// 如 登录 包 被 解析 后 , message 换 为 LoginPacket, 这 个 时 候 进 入 if (data 
// 此 时 的 nextFilter 是 unitABPComponent, 但 是 没有 内 容 结束 程序 
if (message instanceof IoBuffer) { 
IoBuffer ioBuffer =(IoBuffer) message; 
ioBuffer.setAutoExpand (true) ; 
data = component.getDataFromBuffer (ioBuffer) ; 
} 
String appType =(String) session.getAttribute ("appType"); 
if(data = null){ 


== null), 


// 2.Filter HAL unitASportsComponent fil unitABPComponent, ALY 


// unit ABPComponent 的 nextfilter=null, 结束 程序 


// 登录 包 过 来 后 , IoFilterAdapter 的 messageReceived 方法 , 执行 
// next Filter.messageReceived (session, data) 2J%, WEN packageHandle, 


在 下 面 方法 结束 程序 
nextFilter.messageReceived (session,message) ; 
} else { 
nextFilter.messageReceived (session, data); 


(3) 解码 器 抽象 父 类 PacketFilterComponent， 主 要 功能 是 实现 接口 定义 方法 ， 供 子 
类 直接 调用 ; 利用 组 合 迭 代 设计 模式 完成 iobuffer 字 节 数据 到 数据 包 javaBean 的 转换 。 
代码 实现 如 下 : 


package com.cloud.mina.component.filter; 


import java.util.ArrayList; 

import java.util.Iterator; 

import java.util.List; 

import org.apache.log4j.Logger; 

import org.apache.mina.core.buffer.IoBuffer; 

import com.cloud.mina.unit a.sportpackage.PackageData; 


/** 


* 解码 器 的 抽象 父 类 


* 


* @author changyaobin 


64 。 


第 2 章 大 数据 高 并 发 采集 微服 务 引擎 


(4) 设备 A 的 根 解 码 器 MHRootComponent， 无 实际 功能 ， 主 要 作为 解码 器 的 根 ， 
具体 功能 由 其 子 类 去 实现 。 代 码 实现 如 下 : 


(5) 智能 终端 运动 数据 包 解 码 器 UnitASportComponent， 主 要 功能 是 实现 字 节 流 的 
数据 头 检查 ， 有 具体 解析 数据 功能 由 其 各 个 子 类 去 实现 。 代 码 实 现 如 下 : 


6. 
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* 
e 
public class UnitASportComponent extends MHRootComponent { 


@override 
public boolean check (IoBuffer buffer) { 
log.info("byte[0]=" + buffer.get(0)+ " byte[1]=" + buffer.get (1)+ 
" byte[2]-" + buffer.get (2)+ " byte[3]=" + buffer.get(3)); 
log.info("byte[4]=" + buffer.get (4)+ " byte[5]=" + buffer.get (5)+ 
" byte[6]=" + buffer.get(6)+ " byte[7]=" + buffer.get (7)); 
log.info("byte[8]=" + buffer.get(8)+ " byte[9]=" + buffer.get (9)); 
if ((buffer.get (0)== -89) && (buffer.get (1)== -72) && (buffer .get (2) == 
0) && (buffer.get (3)== 1)) 1 
log.info("buffer.length=" + buffer.array().length); 
log.info (this.getClass () .getSimpleName ()+".check () return true"); 
return true; 
} 
log.info(this.getClass () .getSimpleName ()+ ".check () return false"); 
return false; 


@override 

public PackageData generateRealPackageData (IoBuffer buffer) { 
return null; 

I 

} 

} 


(6) 数据 登录 数据 包 ， 继 承 UnitASportComponent 类 ， 主 要 功能 是 检查 登录 数据 包 
KAR, 将 登录 字 节 解析 为 登录 数据 包 对 象 ,解析 规则 可 以 参考 设备 接口 规范 。 代 码 实 
现 如 下 : 


package com.cloud.mina.component.unit a.sport; 


import org.apache.mina.core.buffer.IoBuffer; 

import org.springframework.stereotype.Component; 

import com.cloud.mina.component.filter.UnitASportComponent; 
import com.cloud.mina.unit a.sportpackage.LoginPacket; 
import com.cloud.mina.unit a.sportpackage.PackageData; 
import com.cloud.mina.util.DateUtil; 

import com.cloud.mina.util.DeviceIDResolver; 

import com.cloud.mina.util.Logger; 


/** 


* unita 公司 智能 终端 运动 登录 数据 包 解 码 器 
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* 


* @author changyaobin 
* 


SL 
@Component 
public class SportLoginParser extends UnitASportComponent { 
@override 
public boolean check (IoBuffer buffer) { 
if (buffer.get (8)== 1 && buffer.get (9)== -128) { 


return true; 
} 
return false; 


@override 
public PackageData generateRealPackageData (IoBuffer buffer) { 
log.info(this.getClass () .getSimpleName () + 
".generateRealPackageData ()begin..."); 
LoginPacket data = new LoginPacket (); 
data.setDeviceID (DeviceIDResolver.getDeviceIDFromBytes (buffer. 
array(),10)); 
data.setPatientID (DeviceIDResolver.searchPatientidByDeviceid 
(data.getDeviceID())); 
data.setAppType (DeviceIDResolver.searchAppTypeByDeviced (data. 
getDeviceID())); 
data.setLoginTime (DateUtil.getCurrentTime ()); 
data.setName ("sports"); 
data.setType ("login"); 
if (data.getDeviceID()!= null && data.getDeviceID().length()> 4) 1 
data. setCompany (DeviceIDResolver.searchCompanyByDeviceid (data. 
getDeviceID())); 
H 
Logger.writeLog("NO.1 package handled device id:" + data. 
getDevice ID()+ " patientID:" + data.getPatientID()+ " company:" 
+ data.getCompany ()); 
log.info(this.getClass () .getSimpleName () + 
".generateRealPackage Data ()end."); 
return data; 
} 
} 


(7) 数据 1 号 包 解 码 器 No8OneWayParser, 27K UnitASportComponent 类 ， 主 要 功 


能 是 检查 简要 包 数 据 头 , 将 简要 包 字 节 解析 为 数据 包 对 象 , 解析 规则 可 以 参考 设备 接 
规范 。 代 码 实现 如 下 : 
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package com.cloud.mina.component.unit a.sport; 


import 
import 
import 
import 
import 
import 
import 
import 
/** 


org.apache.mina.core.buffer.IoBuffer; 
org.springframework.stereotype.Component; 
com.cloud.mina.component.filter.UnitASportComponent; 
com.cloud.mina.unit a.sportpackage.No80neWayPacket; 
com.cloud.mina.unit a.sportpackage.PackageData; 
com.cloud.mina.util.DataTypeChangeHelper; 
com.cloud.mina.util.DateUtil; 
com.cloud.mina.util.DeviceIDResolver; 


* unitA 公司 智能 终端 运动 数据 包 (1 号 数据 包 ) 解码 器 


* 


* (author changyaobin 


* 


zn 


@Component 


public 


class No80neWayParser extends UnitASportComponent { 


@override 
public boolean check (IoBuffer buffer) { 
if (buffer.get(8)== 8 && buffer.get (9)== 1) { 


} 


return true; 


return false; 


public PackageData generateRealPackageData (IoBuffer buffer) { 
log.info(this.getClass() .getSimpleName () + 


".generateRealPackage Data()begin..."); 


No80neWayPacket packet = new No80neWayPacket (); 
byte kcal b[] = new byte[4]; 

byte step b[] = new byte[4]; 

byte effective step b[] = new byte[4]; 
byte distance b[] = new byte[4]; 

byte levell b[] = new byte[2]; 

byte level2 b[] = new byte[2]; 

byte level3 b[] = new byte[2]; 

byte level4 b[] = new byte[2]; 

int tran type = buffer.get (10); 

int year = buffer.get (11); 

int month = buffer.get (12); 

int day = buffer.get (13); 

effective step b[0] = buffer.get(14); 
effective step b[1] = buffer.get (15); 
effective step b[2] = buffer.get (16); 
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effective step b[3] = buffer.get(17); 
int battery = buffer.get (22); 
int weight = buffer.get (23); 
int stride = buffer.get (24); 
kcal b[0] = buffer.get(25); 
kcal b[1] = buffer.get(26); 
kcal_b[2] = buffer.get (27); 
kcal b[3] = buffer.get (28); 
step b[0] = buffer.get (29); 
step b[1] = buffer.get (30); 
step b[2] = buffer.get (31); 
step b[3] = buffer.get (32); 
distance b[0] buffer.get (33); 
distance b[1] buffer.get (34); 
distance b[2] buffer.get (35); 
distance b[3] buffer.get (36); 
levell b[1] = buffer.get (37); 
levell b[0] = buffer.get (38); 
level2 b[1] = buffer.get (39); 
level2 b[0] = buffer.get (40); 
level3 b[1] = buffer.get (41); 
level3 b[0] = buffer.get (42); 
level4 b[1] = buffer.get (43); 
level4 b[0] = buffer.get (44); 
long kcal = DataTypeChangeHelper.unsigned4BytesToInt (kcal b,0); 


long step - DataTypeChangeHelper.unsigned4BytesToInt (step b,0); 

long effective step - DataTypeChangeHelper.unsigned4BytesToInt 
(effective step b,0); 

long distance = DataTypeChangeHelper.unsigned4BytesToInt 
(distance b,0); 

int levell = DataTypeChangeHelper.byte2int (levell b)* 2; 

int level2 = DataTypeChangeHelper.byte2int (level2 b)* 2; 

int level3 = DataTypeChangeHelper.byte2int (level3 b)* 2; 

DataTypeChangeHelper.byte2int (level4 b)* 2; 

String firmware version = DeviceIDResolver.getFirmwareVersion (buffer. 


int level4 


array(),18); 

String prefix = DeviceIDResolver.getDeviceIDPrefix (buffer. 
array(),45); 

String deviceID = DeviceIDResolver.getDeviceIDFromBytes (buffer. 
array(),50); 

String patientID = DeviceIDResolver.searchPatientidByDeviceid 
(deviceID); 

String company = DeviceIDResolver.searchCompanyByDeviceid (deviceID); 

String stepdate = DateUtil.getStepdate (year,month, day); 


第 2 章 ”大 数据 高 并 发 采集 微服 务 引 


packet .setStepdate (stepdate) ; 
packet.setBattery (battery) ; 
packet .setWeight (weight); 
packet .setStride (stride); 
packet .setKcal (kcal); 
packet .setStep (step); 
packet .setDistance (distance); 
packet.setEffective step(effective step); 
packet .setLevell (levell); 
packet .setLevel2 (level2) ; 
packet .setLevel3 (level3) ; 
packet .setLevel4 (level4) ; 
packet.setTran type(tran type); 
packet.setDeviceID (deviceID); 
packet.setPatientID (patientID); 
packet.setCompany (company) ; 
packet.setFirmware version(firmware version); 
packet .setPrefix (prefix); 
log.info(this.getClass () .getSimpleName () + 
".generateRealPackageData ()end."); 

return packet; 

} 

} 


(8) 数据 2 号 包 解 码 器 No8TwoWayParser, 4k7k UnitASportComponent 类 ， 主 要 
功能 是 检查 详细 包 数 据 头 , 将 详细 包 字 节 数据 解析 成 数据 包 对 象 ， 解析 规则 可 以 参考 设 
备 接口 规范 。 代 码 实 现 如 下 : 


package com.cloud.mina.component.unit a.sport; 

import org.apache.mina.core.buffer.IoBuffer; 

import org.springframework.stereotype.Component; 

import com.cloud.mina.component.filter.UnitASportComponent; 
import com.cloud.mina.unit a.sportpackage.No8TwoWayPacket; 
import com.cloud.mina.unit a.sportpackage.PackageData; 
import com.cloud.mina.util.DataTypeChangeHelper; 

import com.cloud.mina.util.DateUtil; 

import com.cloud.mina.util.DeviceIDResolver; 


pur 


* unita 公司 智能 终端 运动 数据 包 (2 号 数据 包 ) 解码 器 


* 


* @author changyaobin 
* 


Bh 
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(Component 
public class No8TwoWayParser extends UnitASportComponent ( 
@override 
public boolean check (IoBuffer buffer) { 
if (buffer.get (8) 8 && buffer.get(9)= 2){ 
return true; 


} 
return false; 
} 
@override 
public PackageData generateRealPackageData (IoBuffer buffer) { 
log.info(this.getClass() .getSimpleName () + 
".generateRealPackageData ()begin..."); 
String prefix = DeviceIDResolver.getNo8PackageDevicePrefix 
(buffer.array()); 
No8TwoWayPacket packet - null; 
packet - handle5MinutesDetailPacket (buffer); 
log.info(this.getClass().getSimpleName ()+ 
".generateRealPackageData () end.") ; 
return packet; 
} 
private No8TwoWayPacket handle5MinutesDetailPacket (IoBuffer buffer) { 
No8TwoWayPacket packet = new No8TwoWayPacket (); 
int number = 0; 
byte length[] = new byte[4]; 


byte year[] = new byte[2]; 

byte stepcount[] = new byte[2]; 
byte stepkcal[] = new byte[2]; 
byte data[] = new byte[2]; 

int year u[] = new int[24]; 

int month u[] = new int[24]; 
int day u[] = new int[24]; 


int Hour[] = new int[24]; 

int hourdata[][] = new int[24] [72]; 

int hourdata real[][] = new int[24] [72]; 

length[0] = buffer.get (4); 

length[1] = buffer.get (5); 

length[2] = buffer.get (6); 

length[3] = buffer.get (7); 

long lengthvalue = DataTypeChangeHelper.unsigned4BytesToInt 
(length, 0); 

String deviceID = DeviceIDResolver.getDeviceIDFromBytes (buffer. 
array(), (int) (lengthvalue - 18)); 

String patientID = DeviceIDResolver.searchPatientidByDeviceid 
(deviceID); 
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String company = DeviceIDResolver.searchCompanyByDeviceid (deviceID); 

packet.setDeviceID (deviceID); 

packet .setPatientID(patientID) ; 

packet .setCompany (company) ; 

int unUsedataNum = 12; 

if ((lengthvalue - 12)% 114 == 0){ 
unUsedataNum = 12; 

} else { 
unUsedataNum 


33; 
} 
long max times tran =(lengthvalue - unUsedataNum)/ 114; 
for(int i = 0;i <= 24; i++) { 
if (number ==(lengthvalue - unUsedataNum) ) { 
break; 
} 
year[1] = buffer.get (10 + number); 
year[0] = buffer.get (11 + number); 
year u[i] = DataTypeChangeHelper.byte2int (year); 
month u[i] = buffer.get(13 + number); 
day u[i] = buffer.get(14 + number); 
Hour[i] = buffer.get(15 + number); 
for(int j = 0;j < 12;3++)1 
stepcount[0] = buffer.get(16 + j * 2 + number); 
stepcount [1] = buffer.get(17 + j * 2 + number); 
hourdata[i] [j] = DataTypeChangeHelper.byte2int (stepcount) ; 
hourdata real [i] [j] =DataTypeChangeHelper .byte2int (stepcount) ; 
} 
for(int j = 0;j < 12; Jj++) { 
stepkcal[0] = buffer.get(40 + j * 2 + number); 
stepkcal [1] buffer.get (41 + j * 2 + number); 
hourdata[i] [j + 12] = DataTypeChangeHelper .byte2int (stepkcal) ; 


} 
for(int j = 0;j < 12; j++) { 
if(buffer.get(64 + j + number)< 0){ 
hourdata[i][j + 24] = buffer.get (64 + j + number) + 256; 
hourdata[i][j + 24] = hourdata[i][j + 24] * 2; 
} else { 
hourdata[i][j + 24] = buffer.get(64 + j + number); 
hourdata[i][j + 24] = hourdata[i][j + 24] * 2; 
} 
if(buffer.get(76 + j + number)< O)( 
hourdata[i][j + 36] = buffer.get (76 + j + number)+ 256; 
hourdata[i][j + 36] = hourdata[i] [j + 36] * 2; 
} else { 


hourdata[i][j + 36] = buffer.get(76 + j + number); 
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hourdata[i][j + 36] = hourdata[il[j + 36] * 2; 

} 

if(buffer.get(88 + j + number)< 0){ 
hourdata[i][j + 48] = buffer.get(88 + j + number)+ 256; 
hourdata[i][j + 48] = hourdata[i][j + 48] * 2; 

} else { 
hourdata[i][j + 48] = buffer.get(88 + j + number); 
hourdata[i][j + 48] = hourdata[i][j + 48] * 2; 


} 
for(int j = 053] < 12;3++)4 
data[0] = buffer.get (100 + j * 2 + number); 
data[l] buffer.get (101 + j * 2 + number); 
hourdata[i][j + 60] = DataTypeChangeHelper.byte2int (data); 


} 
number = number + 114; 


} 
for(int times tran = 0;times tran < max times tran;times tran++) { 


StringBuffer stepcount2data - new StringBuffer(); 
stepcount2data = stepcount2data.append ("{\"data\":{\"datatype\": 
\"STEPCOUNT2\","); 
stepcount2data = stepcount2data.append ("\"hour\"" + ":\"" + 
String.valueof (Hour[times tran])+ "\"," + "\"datavalue\": 
[{\"snp5\":"); 
stepcount2data.append ("\""); 
for(int i = 0;i « 12;i++){ 
if(i == 11)( 
stepcount2data. append (String. valueOf (hourdata [times 
tran] [11)); 
} else { 
stepcount2data.append (String. valueOf (hourdata [times 
tran] [i])) .append(","); 


} 
stepcount2data.append ("\""); 


stepcount2data.append ("}, {\"knp5\":"); 
stepcount2data.append ("\""); 
for (int i = 0;i < 12;i++){ 
if(i == 11){ 
stepcount2data. append (String. valueOf (hourdata [times 
tran] [i + 12])); 


} else { 
stepcount2data. append (String. valueOf (hourdata [times 


tran] [i + 12])).append(","); 
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stepcount2data.append (String.valueOf (hourdata [times 
tran] [i + 60])).append(","); 


} 
stepcount2data.append ("\""); 
stepcount2data.append ("}]}}"); 
String stepdate = DateUtil.format (year u[times tran] + "-" + 
month u[times tran] + "-" + day ultimes tran]); 
stepdate = stepdate.replaceAll ("-",""); 
packet .getStepcount2data () .add (stepcount2data.toString()); 
packet .getStepdate () .add (stepdate) ; 
} 
return packet; 
} 
} 


(9) 数据 3 号 包 和 解码 器 No8ThreeWayParser， 继 承 UnitASportComponent 类 ， 主 要 
功能 是 检测 历史 简要 包 字 节 包头 信息 , 将 字 节 数据 解析 成 历史 简要 包 数 据 , 解析 规则 可 
以 参考 设备 接口 规范 。 代 码 实 现 如 下 : 


package com.cloud.mina.component.unit a.sport; 

import org.apache.mina.core.buffer.IoBuffer; 

import org.springframework.stereotype.Component; 

import com.cloud.mina.component.filter.UnitASportComponent; 
import com.cloud.mina.unit a.sportpackage.No8ThreeWayPacket; 
import com.cloud.mina.unit a.sportpackage.PackageData; 
import com.cloud.mina.util.DataTypeChangeHelper; 

import com.cloud.mina.util.DateUtil; 

import com.cloud.mina.util.DeviceIDResolver; 

/** 

* unitA 公司 智能 终端 运动 数据 包 (3 号 包 ) 解码 器 


* 


* @author changyaobin 
* 


2 
@Component 
public class No8ThreeWayParser extends UnitASportComponent { 
@override 
public boolean check (IoBuffer buffer) { 

if (buffer.get(8)== 8 && buffer.get(9)= 3){ 

return true; 
} 
return false; 
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@override 


public PackageData generateRealPackageData (IoBuffer buffer) { 


} 


log.info (this.getClass () .getSimpleName ()+ ".generateRealPackageData () 
begin---")yr 


No8ThreeWayPacket packet - packetPacking (buffer); 

log.info(this.getClass () .getSimpleName ()+ ".generateRealPackageData () 
end."); 

return packet; 


private No8ThreeWayPacket packetPacking (IoBuffer buffer) { 


No8ThreeWayPacket packet = new No8ThreeWayPacket (); 
byte kcal b[] = new byte[4]; 

byte step b[] = new byte[4]; 

byte effective step b[] = new byte[4]; 
byte distance b[] = new byte[4]; 

byte levell b[] = new byte[2]; 

byte level2 b[] = new byte[2]; 

byte level3 b[] = new byte[2]; 

byte level4 b[] = new byte[2]; 

int tran type = buffer.get (10); 

int year = buffer.get (11); 

int month = buffer.get (12); 

int day = buffer.get (13); 
effective step b[0] = buffer.get (14); 
effective step b[1] = buffer.get (15); 
effective step b[2] buffer.get (16); 
effective step b[3] buffer.get (17); 
int battery = buffer.get (22); 

int weight = buffer.get (23); 

int stride = buffer.get (24); 

kcal b[0] = buffer.get (25); 

kcal b[1] = buffer.get (26); 

kcal b[2] = buffer.get (27); 

kcal b[3] = buffer.get (28); 

step b[0] = buffer.get (29); 

step b[1] = buffer.get (30); 

step b[2] = buffer.get (31); 

step b[3] = buffer.get (32); 

distance b[0] = buffer.get (33); 
distance b[1] = buffer.get (34); 
distance b[2] buffer.get (35); 
distance b[3] = buffer.get (36); 
levell b[1] = buffer.get (37); 

levell b[0] = buffer.get (38); 
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level2 b[1] = buffer.get (39); 

level2 b[0] = buffer.get (40); 

level3 b[1] = buffer.get (41); 

level3 b[0] = buffer.get (42); 

level4 b[1] = buffer.get (43); 

level4 b[0] = buffer.get (44); 

long kcal = DataTypeChangeHelper.unsigned4BytesToInt (kcal b,0); 

long step = DataTypeChangeHelper.unsigned4BytesToInt (step b,0); 

long effective step - DataTypeChangeHelper.unsigned4BytesToInt 
(effective step b,0); 

long distance = DataTypeChangeHelper.unsigned4BytesToInt (distance | 
b,0); 

int levell = DataTypeChangeHelper.byte2int(levell b)* 2; 

DataTypeChangeHelper.byte2int(level2 b)* 2; 

DataTypeChangeHelper.byte2int (level3 b)* 2; 

DataTypeChangeHelper.byte2int (level4 b)* 2; 

String firmware version - DeviceIDResolver.getFirmwareVersion 
(buffer.array(),18); 

String prefix = DeviceIDResolver.getDeviceIDPrefix (buffer.array(), 
65); 

String deviceID - DeviceIDResolver.getDeviceIDFromBytes (buffer. 
array(),70); 

String patientID = DeviceIDResolver.searchPatientidByDeviceid (deviceID); 

String company = DeviceIDResolver.searchCompanyByDeviceid (deviceID); 

packet.setDeviceID (deviceID); 

packet .setPatientID(patientID); 

packet . setCompany (company); 

packet .setFirmware version (firmware version); 

packet .setPrefix (prefix); 

String stepdate = DateUtil.getStepdate (year,month, day) ; 

packet .setBattery (battery); 

packet .setStepdate (stepdate) ; 

packet . setWeight (weight); 

packet .setStride (stride); 

packet .setKcal (kcal); 

packet .setStep (step); 

packet .setDistance (distance); 

packet.setEffective step(effective step); 

packet .setLevell (levell); 

packet .setLevel2 (level2) ; 

packet .setLevel3 (level3) ; 

packet .setLevel4 (level4) ; 

packet.setTran type(tran type); 

return packet; 


int level2 


int level3 


int level4 


第 2 章 ”大 数据 高 并 发 采集 微服 务 引 


(10) 数据 退出 包 解码 器 SportLogoutParser， 主 要 功能 是 检查 退出 包 数 据 头 信息 ， 


将 字 节 数据 解析 成 退出 数据 包 ， 解 析 规 则 可 以 参考 设备 接口 规范 。 代 码 实现 如 下 : 


a 1m 


package com.cloud.mina.component.unit a.sport; 


import org.apache.mina.core.buffer.IoBuffer; 

import org.springframework.stereotype.Component; 

import com.cloud.mina.component.filter.UnitASportComponent; 
import com.cloud.mina.unit a.sportpackage.LogoutPacket; 


import com.cloud.mina.unit a.sportpackage.PackageData; 
Nee 

* unita 公司 智能 终端 运动 退出 解码 器 

* 


* (author changyaobin 


ta 

GComponent 

public class SportLogoutParser extends UnitASportComponent ( 

@override 

public boolean check (IoBuffer buffer) { 
if (buffer.get(8)== 1 && buffer.get (9)== 3) { 

return true; 

} 
return false; 

} 

@override 

public PackageData generateRealPackageData (IoBuffer buffer) { 
log.info(this.getClass() .getSimpleName () + 

".generateRealPackage Data()begin..."); 
LogoutPacket packet = new LogoutPacket (); 
packet .setName ("sports"); 
packet .setType ("logout"); 
log.info(this.getClass () .getSimpleName () + 
".generateRealPackage Data()end."); 

return packet; 

} 

} 


235 数据 包 状态 进行 解析 实现 

业务 数据 包 处 理 是 按照 厂家 和 数据 类 型 进行 设计 的 ， 不 同 厂家 的 设备 协议 不 同 ， 
用 策略 模式 实现 ， 不 同 数据 类 型 的 数据 包 ， 采 用 状态 模式 实现 ， 主 要 可 以 实现 不 同 
家 和 不 同 数据 类 型 的 可 扩展 实现 。 首先 定义 总 的 策略 MHDataPacketHandleStrategy， 
同 厂家 就 是 不 同 的 策略 ，unitA 厂家 包括 UnitASportsPacketHandleStrategy 和 
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UnitABloodPressurePacketHandleStrategy 策略 ， 当 设备 的 数据 包 到 达 平 台 时 ， 每 个 数据 
包头 通过 名 字 来 标识 ， 如 sports 和 bloodpressure. unitA 厂家 的 不 同 数据 包 是 按照 状态 
模式 实现 的 ， 总 的 状态 定义 为 SportsPacketHandleState ， 包 括 子 类 有 登录 包 
SportNolLoginState, 1 号 包 SportNo8OneWayState, 2 号 包 SportNo8TwoWayState, 3 
号 包 SportNo8ThreeWayState 和 退出 包 SportLogoutState。 登 录 包 和 退出 包 不 会 入 库 ， 
登录 包 实 现 数据 包 的 合法 验证 , 退出 包 实 现 数据 传输 结束 。 数据 包 完 成 解析 后 按照 数据 
对 象 进行 入 库 ， 入 库 调用 统一 的 数据 接口 SaveSportsNo8PacketUtil。 

(1) 项 目 包 com.cloud.mina.unit a.strategy 的 StrategyFactroyHandler, 4k7K mina 提 
供 的 IoHandlerAdapter 适配器 类 ， 主 要 功能 是 重 写 数据 处 理 核 心 方法 messageReceived, 
完成 业务 数据 入 库 ， 根 据 数据 包 不 同 的 类 型 ， 利 用 Java 反射 出 不 同 的 策略 处 理 类 ; 在 
SpringBoot 版 本 会 调用 restTemplate 将 数据 转发 到 dispatch 服务 端 。 代 码 实现 如 下 。 

(D Spring MVC 版 本 : 


package com.cloud.mina.unit a.strategy; 


import java.util.ArrayList; 

import java.util.HashMap; 

import java.util.List; 

import java.util.Map; 

import org.apache.commons.httpclient.NameValuePair; 
import org.apache.commons.lang.StringUtils; 

import org.apache.mina.core.service.IoHandlerAdapter; 
import org.apache.mina.core.session.IoSession; 

import com.cloud.mina.unit a.sportpackage.PackageData; 
import com.cloud.mina.util.HttpClientUtil; 

import com.cloud.mina.util.Log; 

import com.cloud.mina.util.PropertiesReader; 

/** 

* mina [f] Iohandler 自 定义 扩展 类 


* 


* @author Changyaobin 
* 
t/ 
public class StrategyFactroyHandler extends IoHandlerAdapter ( 
// 定义 变量 区 域 
public MHDataPacketHandleStrategy chain = null; 
PackageData packet = null; 
static Map<String,Class> classMap = new HashMap<String,Class>(); 
static { 
EE? 
* 不 同 厂家 就 是 不 同 的 策略 , unitA 的 sport /BP 通过 数据 包 的 名 字 来 匹配 类 名 , 如 


sports 和 bloodpressure 
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e 
classMap.put ("sports", UnitASportsPacketHandleStrategy.class) ; 
classMap.put ("bloodpressure", UnitABloodPressurePacketHandle Strategy. 
class); 


public void messageReceived (IoSession session,Object message) throws 
Exception { 
// 1.8808 UE 
if(message !- null && message instanceof PackageData)( 
packet -(PackageData)message; 
11 2. 调 用 具体 设备 处 理 
chain= (MHDataPacketHandleStrategy) classMap.get 
(packet.get Name ()) .newInstance () 
if(chain != null){ 
chain.handle (session,message); 
String dispatchPath = PropertiesReader.getProp ("DISPATCH 
SERVER PATH"); 
if (StringUtils.isNotBlank (dispatchPath) ) { 
11 参数 拼接 
List«NameValuePair» urlParameters = new ArrayList<>(); 
urlParameters.add (new NameValuePair ("appType", packet. 
getAppType ())); 
urlParameters.add (new NameValuePair ("dataType",packet. 
getType ())); 
// 数据 发 送 给 转发 服务 
boolean sendSuccess = HttpClientUtil.sendHttpData (this. 
getClass () .getName () dispatchPath, urlParameters. 
toArray (new NameValuePair [url 
Parameters.size()])); 
if (!sendSuccess) { 
Log. error (" 数 据 发 送 到 转发 服务 失败 ,转发 服务 路 径 为 "+ 
dispatchPath + ", 数 据 为 " + packet.toString()); 
} 
Jelse { 


Log.error ("转发 服务 路 径 没 配置 ") ; 


} 
} 


(2) Spring Boot 版 本 : 


package com.cloud.mina.unit a.strategy; 
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import java.util.HashMap; 

import java.util.Map; 

import org.apache.mina.core.service.IoHandlerAdapter; 
import org.apache.mina.core.session.IoSession; 

import org.springframework.web.client.RestTemplate; 
import com.cloud.mina.bean.Message; 

import com.cloud.mina.unit a.sportpackage.PackageData; 
import com.cloud.mina.util.Logger; 

per 

* mina [f] Iohandler 自 定义 扩展 类 


* 


* @author changyaobin 

* 

SH 

public class StrategyFactroyHandler extends IoHandlerAdapter { 
// 定义 变量 区 域 

public MHDataPacketHandleStrategy chain = null; 

PackageData packet = null; 

// springCloud 消息 转发 模板 

private RestTemplate restTemplate; 

static Map<String,Class> classMap = new HashMap<String,Class>(); 


static { 
ae 
* 不 同 厂 家 就 是 不 同 的 策略 , unita 的 sport /BP 通过 数据 包 的 名 字 来 匹配 类 名 ,如 
sports 和 bloodpressure 
t) 
classMap.put ("sports",UnitASportsPacketHandleStrategy.class); 
classMap.put ("bloodpressure",UnitABloodPressurePacketHandle Strategy. 
class); 
H 
public void messageReceived(IoSession session,Object message)throws 
Exception ( 
// 1.8808 uE 
if (message != null && message instanceof PackageData) { 
packet -(PackageData)message; 
// 2. 调 用 具体 设备 处 理 
chain- (MHDataPacketHandleStrategy) classMap .get (packet .getName ()). 
newInstance (); 
if(chain != null) ([ 
chain.handle (session,message); 
} 
// 发 送 给 转发 服务 
try { 
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Message responseMes = restTemplate.getForObject ("http:// 
BOOT-DISPATCH/sendData?appType- " + packet .getAppType () 
+ "&dataType-" + packet.get Type(),Message.class) ; 


if (responseMes != null && responseMes.getCode()== 1001) { 
11 发 送 成 功 
Logger .writeLog (" 发 送 数据 成 功 ") ; 

} else { 


Logger.writeLog ("发 送 数据 失败 ") ; 


} 
} catch (Exception e) { 


Logger .errorLog ("连接 转发 服务 异常 , 转发 服务 地 址 为 http:// 
BOOT-DISPATCH"); 


public RestTemplate getRestTemplate () ( 
return restTemplate; 


} 

public void setRestTemplate (RestTemplate restTemplate) { 
this.restTemplate = restTemplate; 

} 

} 


(2) 数据 包 处 理 接口 MHDataPacketHandleStrategy， 主 要 功能 是 定义 数据 厂家 策略 
接口 ， 以 及 数据 处 理 方法 。 如 果 有 其 他 的 厂家 接 入 时 ， 要 实现 这 个 接口 ， 重 写 数据 处 理 
方法 即 可 ， 这 样 可 以 提高 项 目的 扩展 性 。 代 码 实现 如 下 : 


package com.cloud.mina.unit a.strategy; 
import org.apache.mina.core.session.IoSession; 


/** 
* UnitA 公司 业务 处 理 策略 接口 


* 


* @author changyaobin 
* 


E 
public interface MHDataPacketHandleStrategy { 
// Unita 数据 处 理 方法 


public void handle (IoSession session,Object message); 
} 


(3) 智能 终端 运动 数据 包 具 体 策略 类 UnitASportsPacketHandleStrategy 代表 unitA 
厂家 的 运动 设备 ， 继 承 MHDataPacketHandleStrategy 总 策略 ， 主 要 功能 是 实现 unitA 厂 
家 的 智能 终端 运动 数据 包 处 理 , 按照 数据 包头 的 类 型 进行 匹配 属于 哪个 状态 后 , 调用 具 
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体 状 态 类 进行 数据 处 理 。 代 码 实现 如 下 : 


package com.cloud.mina.unit a.strategy; 


import java.util.HashMap; 
import java.util.Map; 
import org.apache.mina.core.session.IoSession; 
import com.cloud.mina.unit a.sportpackage.PackageData; 
import com.cloud.mina.unit a.sportstate.SportLogoutState; 
import com.cloud.mina.unit a.sportstate.SportNolLoginState; 
import com.cloud.mina.unit a.sportstate.SportNo80neWayState; 
import com.cloud.mina.unit a.sportstate.SportNo8ThreeWayState; 
import com.cloud.mina.unit a.sportstate.SportNo8TwoWayState; 
import com.cloud.mina.unit a.sportstate.SportsPacketHandleState; 
/** 
* unita 公司 智能 终端 运动 数据 处 理 策略 类 (策略 模式 ) 
UnitASportsPacketHandle Strategy 就 是 Context (状态 模式 ) 
"7 
public class UnitASportsPacketHandleStrategy implements 
MHDataPacket HandleStrategy { 
static Map<String,Class> classMap = new HashMap<String,Class>(); 
// 定义 变量 区 域 
static { 
classMap.put ("login", SportNolLoginState.class) ; 
classMap.put ("logout", SportLogoutState.class) ; 
classMap.put ("No8-1", SportNo80neWayState.class) ; 
classMap.put ("No8-2",SportNo8TwoWayState.class); 
classMap.put ("No8-3",SportNo8ThreeWayState.class); 
} 
SportsPacketHandleState state = null; 
public void setState (SportsPacketHandleState state) { 
this.state = state; 
} 
public void handle (IoSession session,Object message) { 
// 根据 数据 包 的 头 , 调用 具体 的 状态 类 
if (message != null && message instanceof PackageData) { 
PackageData packageData =(PackageData) message; 
try { 
setState ( (SportsPacketHandleState) classMap.get (packageData. 
getType ()) -newInstance ()); 
state.handlePacket (session, message); 
} catch (InstantiationException e) { 
e.printStackTrace (); 


} catch (IllegalAccessException e) { 


. 84° 


第 2 章 ”大 数据 高 并 发 采集 微服 务 引 


e.printStackTrace(); 


} 

} 

(4) 数据 登录 包 状 态 类 SportNolLoginState， 实 现 SportsPacketHandleState 总 状态 ， 
主要 功能 是 智能 终端 运动 登录 包 数 据 处 理 ， 存 入 mina 的 ioSession 会 话 中 ， 供 其 他 业务 
处 理 调用 ， 但 不 入 库 。 代 码 实现 如 下 : 

package com.cloud.mina.unit a.sportstate; 


import java.util.Calendar; 
import org.apache.mina.core.buffer.IoBuffer; 


import org.apache.mina.core.session.IoSession; 

import com.cloud.mina.unit a.sportpackage.LoginPacket; 
import com.cloud.mina.util.DataTypeChangeHelper; 
import com.cloud.mina.util.Logger; 

import com.cloud.mina.util.MLinkCRC; 

/** 

* unita 公司 智能 终端 运动 数据 包 (1 号 包 ) 登录 状态 处 理 类 


* (author changyaobin 
* 
=: 
public class SportNolLoginState implements SportsPacketHandleState { 
public boolean handlePacket (IoSession session,Object message) { 
LoginPacket packet = null; 
if (message != null && message instanceof LoginPacket) { 
packet =(LoginPacket)message; 
if(packet.getPatientID()= null || "".equals (packet.getPatientID(). 
trim()))1 
return false; 
} 
session.setAttribute ("patientId",packet.getPatientID()); 
session.setAttribute ("deviceId", packet .getDeviceID()); 
session. setAttribute ("company", packet . getCompany () ) ; 
session. setAttribute ("loginTime", packet .getLoginTime() ); 
session. setAttribute ("appType", packet . getAppType () ) 
// (IS ACK 
responseToClient (session) ; 
return true; 
} else { 
// 回复 NAK 
// responseToClient (session); 
return false; 
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return ack; 
} 
} 


C5) 数据 1 号 包 状 态 类 SportNo8OneWayState, SEN SportsPacketHandleState 总 状 
态 ， 主 要 功能 是 SportNolLoginState 处 理 数 据 后 ， 就 会 切换 到 该 状态 类 ， 该 类 调用 
SaveSports No8PacketUtil 将 简要 包 数 据 入 库 。 代 码 实现 如 下 : 


package com.cloud.mina.unit a.sportstate; 


import org.apache.mina.core.session.IoSession; 

import com.cloud.mina.unit a.sportpackage.No80neWayPacket; 
import com.cloud.mina.util.Log; 

import com.cloud.mina.util.SaveSportsNo8PacketUtil; 

/** 

* unita 公司 智能 终端 运动 数据 包 (1 号 包 ) 状态 处 理 类 


* 


* @author changyaobin 
* 


=/ 
public class SportNo80neWayState implements SportsPacketHandleState { 


public boolean handlePacket (IoSession session,Object message) { 


11 定义 变量 

No80neWayPacket packet = null; 

// 1. 验 证 参数 

if (message != null && message instanceof No80neWayPacket) { 


packet =(No80neWayPacket)message; 

session.setAttribute ("patientId",packet.getPatientID()); 

session.setAttribute ("deviceId", packet .getDeviceID()); 

session. setAttribute ("company", packet .getCompany ()); 

11 2. BUR A PE 

boolean result = SaveSportsNo8PacketUtil.saveNewSportHistory 
(session, packet) ; 


11 3. 给 设备 应 答 

if (result) { 
SaveSportsNo8PacketUtil.sendNo8Ack (session, result, 1); 

} else { 


Log.error (" 数 据 保存 失败 !") ; 


} 
return false; 
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(6) 数据 2 号 包 状 态 类 SportNo8TwoWayState， 实 现 SportsPacketHandleState 
总 状态 ， 主 要 功能 是 SportNo8OneWayState 处 理 数 据 后 ， 切 换 到 该 状态 类 ， 调 用 
SaveSportsNo8PacketUtil 将 详细 包 数 据 入 库 。 代 码 实现 如 下 : 


package com.cloud.mina.unit a.sportstate; 

import org.apache.mina.core.session.IoSession; 

import com.cloud.mina.unit a.sportpackage.No8TwoWayPacket; 
import com.cloud.mina.util.SaveSportsNo8PacketUtil; 

/** 


* unitA 公司 智能 终端 运动 数据 包 (2 号 包 ) 状态 处 理 类 


* 


* @author changyaobin 
* 


SYP 
public class SportNo8TwoWayState implements SportsPacketHandleState { 
public boolean handlePacket (IoSession session,Object message) { 
No8TwoWayPacket packet = null; 
if(message != null && message instanceof No8TwoWayPacket) { 
packet =(No8TwoWayPacket) message; 
if (packet.getPatientID()!= null && !"".equals (packet. 
getPatient ID())){ 
session.setAttribute ("patientId", packet.getPatientID()); 
session. setAttribute ("deviceId", packet .getDeviceID()); 
session. setAttribute ("company", packet .getCompany () ) 7 
} 
11 数据 存储 入 库 
for(int i = 0;i < packet.getStepcount2data() .size();i++) { 
SaveSportsNo8PacketUtil.saveNewSportDetail (session, 
packet .getStepcount2data () .get (i), packet. 
getStepdate () .get (1)); 
} 
SaveSportsNo8PacketUtil.sendNo8Ack (session, true, 2); 
return true; 
b 
return false; 
} 
} 


CD 数据 3 号 包 状 态 类 SportNo8ThreeWayState， 实 现 SportsPacketHandleState 
总 状态 ， 主 要 功能 是 SportNo8TwoWayState 处 理 数 据 后 ， 切 换 到 该 状态 类 ， 调 用 
SaveSportsNo8PacketUtil 将 有 效 包 数据 入 库 。 代 码 实现 如 下 : 


package com.cloud.mina.unit a.sportstate; 
import org.apache.mina.core.session.IoSession; 


. 88 。 


第 2 章 ”大 数据 高 并 发 采集 微服 务 引擎 


import com.cloud.mina.unit a.sportpackage.No8ThreeWayPacket; 
import com.cloud.mina.util.SaveSportsNo8PacketUtil; 
par 


* unitA 公司 智能 终端 运动 数据 包 (3 号 包 ) 状态 处 理 类 
* 


* @author changyaobin 
* 
= 
public class SportNo8ThreeWayState implements SportsPacketHandleState { 
public boolean handlePacket (IoSession session,Object message) { 
No8ThreeWayPacket packet = null; 
if(message != null && message instanceof No8ThreeWayPacket) { 
packet =(No8ThreeWayPacket)message; 
if (packet.getPatientID()!= null && !"".equals (packet. 
getPatient ID())){ 
session.setAttribute ("patientId",packet.getPatientID()); 
session.setAttribute ("deviceId",packet.getDeviceID()); 
session.setAttribute ("company", packet .getCompany ()); 
} 
boolean result = false; 
result = SaveSportsNo8PacketUtil.saveNewSportSimple (session, 
packet); 
if (result) { 
SaveSportsNo8PacketUtil.sendNo8Ack (session, result, 3); 
} 
return true; 
} 
return false; 
} 
} 


(8) 项 目 包 com.cloud.mina.unit_a.sportstate 的 SportLogoutState 类 是 运动 设备 的 数 
据 包 退出 类 ， 实 现 SportsPacketHandleState 总 状态 ,主要 功能 是 SportNo8ThreeWayState 
处 理 数 据 后 ， 调 用 该 类 进行 退出 ， 关 闭 session。 代 码 实现 如 下 : 


package com.cloud.mina.unit a.sportstate; 


import org.apache.mina.core.buffer.IoBuffer; 

import org.apache.mina.core.session.IoSession; 

import com.cloud.mina.unit a.sportpackage.LogoutPacket; 
import com.cloud.mina.util.Logger; 

import com.cloud.mina.util.MLinkCRC; 


/** 


* unitA 公司 智能 终端 运动 退出 登录 处 理 状态 类 


* 
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* (author changyaobin 
* 
Sy 
public class SportLogoutState implements SportsPacketHandleState ( 
public boolean handlePacket (IoSession session,Object message) { 
if(message != null && message instanceof LogoutPacket) { 
Logger.writeLog("logout package be handled patientID:" + session. 
getAttribute ("patientId")+ " company:" + session.getAttribute 
("company")+ "device id:" + session. getAttribute ("deviceId")); 
handleLogoutData (session); 
session.close (true); 
return true; 
} 
return false; 
} 
private void handleLogoutData (IoSession session) { 


byte[] ack = new byte[12]; 
byte[] crc c = new byte[2]; 
ack[0] = -89; 

ack[1] = -72; 

ack[2] = 0; 

ack [si = 1; 

ack[4] = 0; 

ack[5] = 0; 

ack[6] = 0; 

ack[7] = 12; 

ack[8] = 1; 

ack[9] = 3; 

crc c = MLinkCRC.crcl6 (ack); 
ack[10] = crc c[0]; 

ack[11] = crc c[1]; 


session.write (IoBuffer.wrap (ack) ); 
Logger.writeLog("in method handleLogoutData end the ack:" + 
EEE nee DL Or L S ae col E N 
} 
} 


236 按照 通用 方式 进行 高 并 发 入 库 实 现 


(1) SaveSportsNo8PacketUtil 通用 类 是 根据 业务 封装 ， 引 入 核心 工具 类 C3POU til 
操作 数据 库 ， 将 各 种 数据 包 存 入 MySQL 数据 库 中 。C3P0 的 配置 文件 主要 包括 MySQL 
的 驱动 、 地 址 ， 用 户 名 、 密 码 、 各 种 性 能 参数 等 。 配 置 xml 文件 和 工具 类 的 代码 实现 
如 下 : 
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<?xml version="1.0" encoding="UTF-8"?> 


<c3p0-config> 
<!-- 默认 配置 , 如果 没 有 指定 则 使 用 这 个 配置 --> 


<default-config> 


<property name="driverClass">com.mysql.jdbc.Driver</property> 

<property name-"jdbcUrl"» 
<! [CDATA [jdbc:mysql1://localhost :3306/aggregate?useUnicode= 

truescharacterEncoding=UTF-8]]> 

</property> 

<property name="user">root</property> 

<property name="password">root</property> 

<property name="acquireIncrement">3</property><!-- 如 果 池 中 数据 连接 
不 够 时 一 次 增长 多 少 个 --> 

<property name="initialPoolSize">3</property> 

<property name="minPoolSize">3</property> 

<property name="maxPoolSize">20</property> 

<property name-"maxStatements"»0«/property»«!-- 一 次 向 数据 库 最 多 可 以 
发 多 少 个 Sql 指令 --> 

«property name="idleConnectionTestPeriod">3600</property><! --f¥ 
3600 秒 检查 所 有 连接 池 中 的 空闲 连接 。Default:0 --> 

<property name="maxIdleTime ">60</property><!-- seconds --> 
Sl Cab) => 

<property name="testConnectionOnCheckin">true</property> 

<property name="acquireRetryAttempts">10</property> 

«property name="acquireRetryDelay">1000</property><!-- 两 次 连接 中 间隔 
时 间 , 单 位 毫秒 。Default:1000 --> 

<property name="breakAfterAcquireFailure">false</property> 

<property name="checkoutTimeout">3000</property> 


</default-config> 
</c3p0-config> 


(2) C3PO 工具 类 ， 用 于 操作 MySQL 库 ， 封 装 了 对 数据 库 常用 的 操作 。 代 码 实 


现 如 下 : 


package com.cloud.mina.util; 


import java.sql.Connection; 


import java.sql.PreparedStatement; 
import java.sql.ResultSet; 

import java.sql.ResultSetMetaData; 
import java.sql.SQLException; 


import java.sql.Statement; 
import java.util.ArrayList; 


import java.util.Arrays; 


import java.util.HashMap; 


import java.util.Iterator; 
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* @throws Exception 
it 
public static List<HashMap<String,String>> getData (String sql) { 
Connection conn - null; 
Statement st — null; 
ResultSet rs null; 
List<HashMap<String, String>> result = new ArrayList<HashMap<String, 
String>> (); 
try ( 
conn = getConnection (); 
st = conn.createStatement (); 


rs = st.executeQuery (sql); 
ResultSetMetaData rsmd = rs.getMetaData(); 
while (rs.next ()){ 
HashMap<String, String> map = new HashMap<String, String> (); 
for(int i = 0;i < rsmd.getColumnCount () ;1++) { 
map .put (rsmd.getColumnLabel (i + 1) ,rs.getString(i + 1)); 
} 
result.add (map); 
) 
) catch(Exception e)( 
log.error (e.getMessage ()); 
e.printStackTrace(); 
) finally ( 
releaseResource (conn,st,rs); 
} 
return result; 
} 
public static List<HashMap<String, String>> getScollData (String sql,int 
pageno,int pagesize) { 
Connection conn = null; 
PreparedStatement pstat = null; 
ResultSet rs = null; 
List<HashMap<String, String>> result = new ArrayList<HashMap<String, 
String»»(); 
try ( 
// conn.prepareStatement (sql, 游标 类 型 , 能 否 更 新 记录 ) ; 
// 游标 类 型 : 
// ResultSet .TYPE_ FORWORD_ONLY: 只 进 游标 
// ResultSet.TYPE SCROLL INSENSITIVE: 可 滚动 。 但 是 不 受 其 他 用 户 对 数 
// 据 库 更 改 的 影响 
// ResultSet.TYPE SCROLL SENSITIVE: 可 滚动 。 当 其 他 用 户 更 改 数据 库 时 这 
// 个 记录 也 会 改变 
// 能 否 更 新 记录 : 
// ResultSet.CONCUR READ ONLY, Hii 
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. 
大 数据 架构 之 道 与 项 目 实战 


(3) 数据 入 库 操作 的 通用 类 SaveSportsNo8PacketUtil， 调 用 C3PO 操作 数据 库 。 如 
果 业 务 上 有 更 多 的 数据 包 需 要 处 理 , 直接 在 SaveSportsNo8PacketUtil 中 增加 相应 的 接 
即 可 。 代 码 实现 如 下 : 


package com.cloud.mina.util; 


import java.util.Arrays; 

import org.apache.mina.core.buffer.IoBuffer; 

import org.apache.mina.core.session.IoSession; 

import com.cloud.mina.unit a.sportpackage.No80neWayPacket; 

import com.cloud.mina.unit a.sportpackage.No8ThreeWayPacket; 

import net.sf.json.JSONArray; 

import net.sf.json.JSONObject; 

/** 

* Tcp 协议 智能 终端 运动 设备 8 号 包 数 据 入 库 通用 方法 类 名 称 : SaveSportsNo8PacketUtil 
* 


* 


* @version 

SJ 

public class SaveSportsNo8PacketUtil { 
/** 


* 存储 智能 终端 运动 数据 -历史 包 
* 
* @param session 
* @param packet 
* (return 
= 
public static boolean saveNewSportHistory (IoSession session, 
No80neWay Packet packet) { 
Logger .writeLog ("存储 -历史 包 数 据 
JSONArray jsArr = new JSONArray(); 
JsonUtil.addEntryToJsonArray (jsArr, "stepSum", packet.getStep()+ ""); 
JsonUtil.addEntryToJsonArray (jsArr, "calSum",packet.getKcal ()+ " 
JsonUtil.addEntryToJsonArray (jsArr, "distanceSum", packet. 
getDistance ()+ ""); 
JsonUtil.addEntryToJsonArray (jsArr, "yxbsSum", packet .getEffective 
step()+ ""); 
JsonUtil.addEntryToJsonArray (jsArr, "weight", packet .getWeight ()+ ""); 
JsonUtil.addEntryToJsonArray (jsArr, "stride",packet.getStride()+ ""); 
JsonUtil.addEntryToJsonArray (jsArr, "degreeOne", packet .getLevell ()+ ""); 
JsonUtil.addEntryToJsonArray (jsArr, "degreeTwo",packet .getLevel2 ()+ ""); 
JsonUtil.addEntryToJsonArray (jsArr, "degreeThree",packet. 
getLevel3 ()+ ""); 
JsonUtil.addEntryToJsonArray (jsArr, "degreeFour",packet. 
getLevel4 ()+ ""); 
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JsonUtil.addEntryToJsonArray (jsArr, "uploadType",packet.getTran 
type()+ ""); 

JsonUtil.addEntryToJsonArray (jsArr, "measureTime",DateUtil. 
formatRestfulDate (packet .getStepdate ())); 


String sql = "insert into sports (phone, deviceld, apptype, dataType, 
realTime, datavalue, pname, receiveTime) values (?,?,?,?,?,?,?,now())"; 
boolean ret = C3P0Util.insertOrUpdateData (sql, (String) session. 
getAttribute ("patientId"), 
(String) session.getAttribute ("deviceId"), (String) session. 
getAttribute ("appType"), 
PropertiesReader.getProp ("DATATYPE STEPCOUNT"),DateUtil. 
format (packet.getStepdate ()),jsArr.toString(), 
"No8-1"); 
return ret; 
} 
/** 
* 存储 详细 包 
* 
* @param session 
* @param data 
* @param stepdate 
x 
public static boolean saveNewSportDetail(IoSession session,String data, 
String stepdate)( 
Logger .writeLog ("以 新 协议 格式 存储 -详细 包 数 据 !") ; 
JSONObject jo = JSONObject.fromObject (data); 
JSONObject dataJson - jo.getJSONObject ("data"); 
String hour = dataJson.getString ("hour"); 
JSONArray dataValue = dataJson.getJSONArray ("datavalue") ; 
JsonUtil.addEntryToJsonArray (dataValue, "hour", hour) ; 
JsonUtil.addEntryToJsonArray (dataValue, "measureTime", DateUtil. 
format (stepdate) ); 
String sql = "insert into sports (phone, deviceld, apptype, dataType, 
realTime, datavalue, pname, receiveTime) values (?,?,?,?,?,?,?,now())"; 
boolean ret = C3POUtil.insertOrUpdateData (sql, (String) session. 
getAttribute ("patientId"), 
(String) session.getAttribute ("deviceId"), (String) session. 
getAttribute ("appType"), 
PropertiesReader.getProp ("changyaobin") , DateUtil. format 
(stepdate) ,dataValue.toString(), 
"No8-2"); 


return ret; 
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pe 
* 存储 智能 终端 运动 数据 -简要 包 
* 
* @param session 
* @param packet 
* @return 
7 
public static boolean saveNewSportSimple (IoSession session, 
No8ThreeWay Packet packet)( 
Logger.writeLog ("存储 -简要 包 数 据 !"); 
JSONArray jsArr = new JSONArray(); 
JsonUtil.addEntryToJsonArray (jsArr, "stepSum",packet.getStep()* ""); 
JsonUtil.addEntryToJsonArray (jsArr, "calSum",packet.getKcal ()+ ""); 
JsonUtil.addEntryToJsonArray (jsArr, "distanceSum", packet.getDistance ()+ 
ir 
JsonUtil.addEntryToJsonArray (jsArr, "yxbsSum",packet.getEffective 
step()+ ""); 
JsonUtil.addEntryToJsonArray (jsArr, "weight", packet .getWeight ()+ 


""); 


JsonUtil.addEntryToJsonArray (jsArr, "stride",packet.getStride ()+ 


mm; 


JsonUtil.addEntryToJsonArray (jsArr, "degreeOne",packet.getLevell ()+ 


""); 


JsonUtil.addEntryToJsonArray (jsArr, "degreeTwo", packet .getLevel2 ()+ 


nny; 


JsonUtil.addEntryToJsonArray (jsArr, "degreeThree", packet .getLevel3()+ 


mm) 
JsonUtil.addEntryToJsonArray (jsArr, "degreeFour",packet.getLevel4 ()+ 
TE 
JsonUtil.addEntryToJsonArray (jsArr, "uploadType",packet.getTran 
typeQ * ""); 
JsonUtil.addEntryToJsonArray (jsArr, "measureTime", DateUtil. 
format RestfulDate (packet.getStepdate())); 
String sql = "insert into sports (phone, deviceld, apptype, dataType, 
realTime, datavalue, pname, receiveTime) values (?,?,?,2,?,2,?,now()) "; 
boolean ret = C3POUtil.insertOrUpdateData (sql, (String) session. 
getAttribute ("patientId"), 
(String)session.getAttribute ("deviceId"), (String)session. 
getAttribute ("appType"), 
PropertiesReader.getProp("DATATYPE STEPCOUNT"),DateUtil. 
format (packet.getStepdate()),jsArr.toString(), 
"No8-3"); 


return ret; 
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(4) 配置 读 取 操作 的 工具 类 PropertiesReader, 通过 io 可 以 读 取 业务 配置 文件 SysConf. 
properties. SysConf properties 中 定义 了 mina 的 端口 、 业 务 信息 等 。 代 码 实现 如 下 : 


; ©. 
天 数据 架构 之 道 与 项 目 实 成 了 


22 
public class PropertiesReader ( 
private static Properties prop - new Properties(); 
static ( 
try ( 
InputStream SystemIn = new ClassPathResource ("com/Config/ 
SysConf.properties") .getInputStream(); 
prop.load (SystemIn); 
} catch (Exception e){ 
e.printStackTrace (); 


} 
public static String getProp (String name) { 


if(prop != null && prop.containsKey (name) ) { 
return prop.getProperty (name, ""); 
} else { 


return ""; 


} 
} 


(5) 项 目 业务 配置 文件 ， 主 要 用 于 定义 本 项 目 需 要 用 到 的 业务 配置 , 例如 智能 终端 
运动 的 数据 类 型 ，mina 的 端口 (spring boot 配置 在 application.properties) 等 。 具体 配置 
如 下 : 

##constants DATATYPE 
changyaobin=stepDetail 

DATATYPE STEPEFFECTIVE=stepEffective 
DATATYPE STEPCOUNT=stepCount 
DATATYPE BLOODPRESSURE=bloodPressure 
#mina 监听 端口 

tcpPort=8888 


DISPATCH SERVER PATH=http://localhost:8080/BD DispatchServer Maven/ 
sendData 


(6) 编写 DataTypeChangeHelper 工具 类 ， 可 以 实现 数据 类 型 的 转换 ， 包 括 将 一 个 
单字 节 的 byte 转换 成 十 六 进 制 的 数 , 将 16 位 的 short 转换 成 byte 数组 , 将 32 位 整数 转 
换 成 长 度 为 4 的 byte 数组。 代码 实现 如 下 : 


/** 


* 数据 协议 使 用 工具 类 


* 


* (version 
= 
public class DataTypeChangeHelper { 


* O 


第 2 章 大 数据 高 并 发 采集 微服 务 引擎 


第 2 章 ， 大 数据 高 并 发 采集 微服 务 引擎 


(7) 日 期 处 理工 具 类 ， 封 装 了 一 些 常用 的 日 期 操作 。 代 码 实现 如 下 : 


ES RARE 


第 2 章 ， 大 数据 高 并 发 采集 微服 务 引擎 


第 2 章 ”大 数据 高 并 发 采集 微服 务 引擎 


27 
public static String formatRestfulDate (String date) { 
// 判断 时 间 是 否 为 空 ,长 度 是 否 满足 解析 要 求 
if(null != date && date.length()== 14)( 
StringBuffer sb = new StringBuffer (); 


Sb.append (date.substring(0,4)).append('-') .append (date.substring 
(4,6)) .append('-') 
.append (date.substring(6,8)).append(' ').append (date. 
substring(8,10)).append(':') 
-append (date.substring(10,12)) .append(':') .append 


(date.substring(12,14)); 
return sb.toString(); 
} 
return date; 
} 


/** 


* 获得 指定 格式 的 日 期 的 指定 偏 移 量 后 的 日 期 


@param dateString 
格式 :yyyy-MM-ad 
@param num 


+*+ ++ 


@return 格式 :yyyy-MM-dd 
public static synchronized String getDayAdd (String dateString, int num) { 
Calendar cal = Calendar.getInstance(); 
try { 
cal.setTime (ft.parse (dateString)); 
} catch (ParseExceptione) { 
e.printStackTrace (); 
H 
cal.add(Calendar.DAY OF MONTH, num); 
return ft.format (cal.getTime ()); 


Jos 
* 将 给 定格 式 的 时 间 字 符 串 转换 为 Calendar 对 象 
* 
* (param currentTime 
* yyyy-MM-dd HH:mm:ss 
* (return 
27 
public static synchronized Calendar getCalendar(String currentTime)( 
Calendar cal - Calendar.getInstance(); 
try ( 
cal.setTime (formatter.parse (currentTime)); 
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} catch(ParseException e) { 
e.printStackTrace (); 
} 
return cal; 
} 
} 


(8) http 请 求 数据 发 送 类 ， 主 要 通过 httpClient 来 给 指定 路 径 服 务 发 送 参 数 。 代 码 
实现 如 下 : 


package com.cloud.mina.util; 


import java.util.Arrays; 
import org.apache.commons.httpclient.HttpClient; 
import org.apache.commons.httpclient.NameValuePair; 
import org.apache.commons.httpclient.methods.PostMethod; 
import org.apache.commons.httpclient.params.HttpMethodParams; 
/** 
* http 客户 端 
* (author Changyaobin 
* 
Ly) 
public class HttpClientUtil { 
public static boolean sendHttpData(String className,String url, 
NameValuePair[] parameter) { 
HttpClient client = new HttpClient (); 
PostMethod post = new PostMethod (url); 
boolean isSuccess=true; 
try ( 
post.getParams () .setParameter (HttpMethodParams .HTTP CONTENT 
CHARSET, "UTF-8"); 
post .setRequestBody (parameter); 
Log. info(className+" send data:"+Arrays.deepToString (parameter) ) ; 
// 设 置 连接 超时 时 间 
client.getHttpConnectionManager ().getParams(). 
setConnection Timeout (3000); 
// 设 置 响应 超时 时 间 
client.getHttpConnectionManager () .getParams () .setSoTimeout 
(15000); 
int returnFlag = client.executeMethod (post); 
if (returnFlag!=200) { 
isSuccess=false; 
} 
Log.info (className+" success receive form post:" + 
post.get StatusLine() .toString()+ ",returnFlag="+returnFlag) ; 
} catch (Exception e) { 


* qM 
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(9) 设备 id 处 理 类 ， 主 要 用 于 操作 用 户 的 手机 号 码 与 设备 信息 。 代 码 实现 如 下 : 


第 2 章 ”大 数据 高 并 发 采集 微服 务 引擎 


第 2 章 ”大 数据 高 并 发 采集 微服 务 引擎 


第 2 章 ， 大 数据 高 并 发 采集 微服 务 引擎 


(10) Json 工具 类 ， 封 装 了 一 些 对 json 格式 数据 的 常用 操作 。 代 码 实现 如 下 : 
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(11) 日 志 处 理 通用 类 ， 主 要 用 于 记录 日 志 信息 到 文件 中 。 代 码 实现 如 下 : 
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/** 
* @param log 
cif 
public static void writeLog(String log) { 
logger .info (log); 
} 
/** 
* @param log 
li 
public static void errorLog (String log) { 
logger.error (log); 
} 
} 


(12) 协议 专用 类 ， 主 要 用 于 根据 协议 ， 返 回 规定 的 格式 给 客户 端 。 代 码 实 现 如 下 


package com.cloud.mina.util; 
/** 
* MLink 协议 专用 类 名 称 修改 人 :修改 时 间 : 修 改 备注 : 
* 
* (version 
57 
public final class MLinkCRC ( 
private static final int[] crcTable = ( 0x0000,0x1189,0x2312,0x329b, 
0x4624, 0x57ad, 0x6536, 0x74bf, 0x8c48, 
0x9dcl, 0xaf5a, Oxbed3, 0xca6c, Oxdbe5, 0xe97e, 0xf8f7,0x1081,0x0108, 
0x3393,0x221a,0x56a5,0x472c, 
0x75b7,0x643e, 0x9cc9, 0x8d40, Oxbfdb, 0xae52, Oxdaed, Oxcb64,0xf9ff, 
0xe876,0x2102,0x308b, 0x0210, 
0x1399, 0x6726, 0x76af, 0x4434, 0x55bd, 0xad4a, Oxbcc3, 0x8e58, 0x9fd1, 
Oxeb6e, Oxfae7,0xc87c,0xd9f5, 
0x3183, 0x200a, 0x1291, 0x0318, 0x77a7, 0x662e, 0x4b5, 0x453c, 0xbdcb, 
0xac42,0x9ed9,0x8f50,0xfbef, 
Oxea66, Oxd8fd, 0xc974, 0x4204, 0x538d, 0x6116, 0x709£, 0x0420, 0x15a9, 
0x2732,0x36bb,0xce4c,0xdfc5, 
Oxed5e, 0xfcd7, 0x8868,0x99e1, 0xab7a, 0xbaf3, 0x5285,0x430c, 0x7197, 
0x601e, 0x14al, 0x0528, 0x37b3, 
0x263a, Oxdecd, 0xcf44, Oxfddf, 0xec56, 0x98e9, 0x8960, Oxbbfb, 0xaa72, 
0x6306, 0x728£, 0x4014, 0x519d, 
0x2522, 0x34ab, 0x0630, 0x17b9, Oxef4e, Oxfec7, Oxcc5c, 0xddd5, 0xa96a, 
Oxb8e3, 0x8a78, 0x9bf1,0x7387, 
0x620e, 0x5095, 0x411c, 0x35a3, 0x242a, 0x16b1, 0x0738, Oxffcf,0xee46, 
Oxdcdd, 0xcd54, 0xb9eb, 0xa862, 
0x9af9, 0x8b70, 0x8408, 0x9581, 0xa71a, 0xb693, 0xc22c, 0xd3a5, 0xe13e, 
Oxf0b7,0x0840,0x19c9,0x2b52, 
Ox3adb, 0x4e64, 0x5fed, 0x6d76, 0x7cff, 0x9489, 0x8500, 0xb79b, 0xa612, 
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Oxd2ad, 0xc324,0xf1bf,0xe036, 

0x18cl,0x0948,0x3bd3,0x2a5a, 0x5ee5, Ox4f 6c, 0x7df7,0x6c7e, 0xa50a, 
0xb483,0x8618,0x9791,0xe32e, 

0xf2a7,0xc03c,0xd1b5,0x2942,0x38cb,0x0a50,0x1bd9,0x6f66,0x7eef, 
0x4c74,0x5dfd, 0xb58b, 0xa402, 

0x9699,0x8710,0xf3af,0xe226,0xd0bd, 0xc134, 0x39c3, 0x284a, Oxladl, 
0x0b58,0x7fe7,0x6e6e,0x5cf5, 

0x4d7c, 0xc60c, 0xd785,0xe51e, 0x£497, 0x8028, 0x91al, 0xa33a, 0xb2b3, 
0x4a44, 0x5bcd, 0x6956,0x78df, 

0x0c60, 0x1de9, 0x2£72, 0x3efb, 0xd68d, 0xc704,0xf59f,0xe416,0x90a9, 
0x8120,0xb3bb, 0xa232, 0x5ac5, 

0x4b4c,0x79d7,0x685e,0x1cel,0x0d68,0x3ff3,0x2e7a,0xe70e,0xf687, 
0xc41c,0xd595,0xal2a,0xb0a3, 

0x8238, 0x93b1, 0x6b46, 0x7acf, 0x4854, 0x59dd, 0x2d62, 0x3ceb, 0x0e70, 
Oxlff9,0xf78f,0xe606,0xd49d, 

0xc514, Oxblab, 0xa022, 0x92b9, 0x8330, 0x7bc7, 0x6a4e, 0x58d5, 0x495c, 
0x3de3,0x2c6a,0xlef1,0x0f78 ); 


public static byte[] crcl6(byte[] ba) { 
byte[] crc = new byte[2]; 
int crcl6 = 0x0000; 
for (byte b:ba) { 

crcl6 -(crcl6 >>> 8)” crcTable[(crcl6 ^ b)& Oxff]; 

} 
crc[0] =(byte) ((crcl6 >> 0)& OxFF); 
crc[1] =(byte) ((crc16 >> 8)& OxFF); 
return crc; 

} 

} 


2.3.7 客户 端 模 拟 器 工具 类 进行 高 并 发 测试 


模拟 器 采用 多 线程 ,模拟 上 千 个 设备 同时 并 发 测试 ,因为 是 对 字 节 流 的 测试 ,最 好 
采用 自主 研发 模拟 器 。 代 码 实现 如 下 : 


package com.simulator.client; 

J** 

* 模拟 器 多 线程 客户 端 

* (author changyaobin 

* 

t 

public class ThreadClient( 

public static void main(String args[])throws Exception ( 
String deviceId-"0526"; 
for(int i = 0;i <1000;i++){ 


new Thread (new StepcountPackageThread (Integer.parseInt 
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* @param out 
* (throws IOException 
x) 
private void sendPackage8Three (OutputStream out)throws IOException ( 
log.info("sendPackage8Three..." + device); 
byte[] sendData - null; 
sendData - new byte[88]; 
// Header (4) 


sendData[0] = -89; 
sendData[1] = -72; 
sendData[2] = 0; 
sendData[3] = 1; 


// Length(4) 
ByteUtil.putIntByLarge (sendData, 88,4); 


// Type(2) 
sendData[8] = 8; 
sendData[9] = 3; 
// USEDATA 


sendData[10] = 1; 

Calendar c = Calendar.getInstance(); 

sendData[11] =(byte) (c.get (Calendar.YEAR)- 2000); 

sendData[12] = (byte) (c.get (Calendar .MONTH)+ 1); 

sendData[13] =(byte)c.get (Calendar.DATE); 

sendData[18] = 3; 

sendData[19] = 5; 

sendData[20] = 0; 

sendData[21] = 3; 

sendData[22] - 60; 

sendData[23] = 70; 

sendData[24] - 70; 

ByteUtil.putIntByLarge (sendData, (this.deviceId + 1) * 1000,25); 

ByteUtil.putIntByLarge (sendData, (this.deviceId + 1) * 1000,29); 

ByteUtil.putIntByLarge (sendData, (this.deviceId + 1) * (int) (10 * 
Math.random()),33); 

ByteUtil.putShortByLarge (sendData, (short) ((this.deviceId + 1)* 


10),37); 

ByteUtil.putShortByLarge (sendData, (short) ((this.deviceId + 1)* 
10),39); 

ByteUtil.putShortByLarge (sendData, (short) ((this.deviceld + 1)* 
10),41); 

ByteUtil.putShortByLarge (sendData, (short) ((this.deviceld + 1)* 
10),43); 

String deviceldStr = this.device; 

sendData[65] = 'D'; 
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(1) 测试 验证 结果 如 图 2-15 所 示 , 可 以 实现 单机 3000TPS 以 上 的 高 并 发 测试 要 求 ， 
如 果 是 服务 器 可 以 实现 上 万 个 并 发 测试 。 
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2-15 ”数据 入 库 结 果 


(2) 数据 表 的 设计 。 

O 数据 表 usertbl， 包 括 用 户 id (名 称 )、deviceID (设备 号 )、patientID (FHL 
号 )、dataType〔 数 据 类 型 )、appType( 应 用 类 型 ) 等 主要 字段。 

O 数据 产品 表 product, 包括 appID (应 用 ID), appName (应 用 名 称 )、appSendFlag 
(应 用 发 送 标 志 )、appUrl (应 用 的 目标 地 址 )。 

O 数据 产品 表 sports, 包括 id、phone (手机 号 )、deviceID (设备 编号 )、dataType 
(数据 类 型 )、appType (应 用 类 型 )、pname (用 户 姓 名 )、sendFlag (发 送 标识 )、dataValue 
(数据 内 容 ) 等 。 

@ 本 章 用 到 的 表 的 创建 参考 如 下 sql 语句 : 


/*140101 SET NAMES utf8 */; 
/*140101 SET SQL MODE-''*/; 
/*140014 SET (OLD UNIQUE CHECKS=@@UNIQUE CHECKS,UNIQUE CHECKS=0 */; 
/*140014 SET (OLD FOREIGN KEY CHECKS=@@FOREIGN KEY CHECKS, FOREIGN KEY 
CHECKS=0 */; 
/*140101 SET (OLD SQL MODE=@@SQL MODE, SQL MODE-'NO AUTO VALUE ON ZERO" 
ale 
/*140111 SET (OLD SQL NOTES=@@SQL NOTES,SQL NOTES=0 */; 
CREATE DATABASE /*!32312 IF NOT EXISTS*/'aggregate' /*!40100 DEFAULT 
CHARACTER SET utf8 COLLATE utf8 unicode ci */; 
USE 'aggregate'; 
/*Table structure for table 'datatype' */ 
DROP TABLE IF EXISTS 'datatype'; 
CREATE TABLE 'datatype' ( 
'datatypeID' int(11)NOT NULL AUTO INCREMENT, 
'dataDesc' varchar(50)COLLATE utf8 bin DEFAULT NULL, 
'dataTypeName' varchar (50) COLLATE utf8 bin DEFAULT NULL, 
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'tableName' varchar(50)COLLATE utf8 bin DEFAULT NULL, 
'updateTime' varchar (20) COLLATE utf8 bin DEFAULT NULL, 
PRIMARY KEY ('datatypelD'), 
UNIQUE KEY 'datatypeID' ('datatypeID') 
)ENGINE-InnoDB AUTO INCREMENT-12 DEFAULT CHARSET-utf8 COLLATE-utf8 bin; 


/*Table structure for table 'product' */ 
DROP TABLE IF EXISTS 'product'; 
CREATE TABLE 'product' ( 
'appID' int(11)NOT NULL AUTO INCREMENT, 
'appDesc' varchar(50)COLLATE utf8 bin DEFAULT NULL, 
'appName' varchar(50)COLLATE utf8 bin DEFAULT NULL, 
'appSendFlag' varchar(50)COLLATE utf8 bin DEFAULT NULL, 
'appToggle' varchar(50)COLLATE utf8 bin DEFAULT NULL, 
'appUrl' varchar(100)COLLATE utf8 bin DEFAULT NULL, 
'updateTime' varchar(20)COLLATE utf8 bin DEFAULT NULL, 
'appQueueName' varchar(50)COLLATE utf8 bin DEFAULT NULL, 
PRIMARY KEY('appID'), 
UNIQUE KEY 'appID' ('appID') 
)ENGINE-InnoDB AUTO INCREMENT-6 DEFAULT CHARSET-utf8 COLLATE-utf8 bin; 
/*Table structure for table 'product datatype' */ 
DROP TABLE IF EXISTS 'product datatype'; 
CREATE TABLE 'product datatype' ( 
'id' int(11)NOT NULL AUTO INCREMENT, 
'dataTypeID' int(11)DEFAULT NULL, 
'productID' int(11)DEFAULT NULL, 
'toggle' varchar(20)COLLATE utf8 bin DEFAULT NULL COMMENT 'on/off', 
'updatetTime' varchar(20)COLLATE utf8 bin DEFAULT NULL, 
PRIMARY KEY('id'), 
UNIQUE KEY 'id'('id'), 
KEY 'FK7DF1B3449BEDOBB' ('dataTypeID'), 
KEY 'FK7DF1B3425633361' ('productID'), 
CONSTRAINT 'FK7DF1B3425633361' FOREIGN KEY ('productID') REFERENCES 
'product' ('appID'), 
CONSTRAINT 'FK7DF1B3449BEDOBB' FOREIGN KEY('dataTypeID')REFERENCES 
'datatype' ('datatypeID') 
)ENGINE-InnoDB AUTO INCREMENT-17 DEFAULT CHARSET-utf8 COLLATE-utf8 bin; 
/*Table structure for table 'sports' */ 
DROP TABLE IF EXISTS 'sports'; 
CREATE TABLE 'sports' ( 
'id' int(10)NOT NULL AUTO INCREMENT COMMENT 'id', 
'phone' varchar(20)COLLATE utf8 bin DEFAULT NULL COMMENT ' 手 机 号 '， 
'deviceID' varchar(50)COLLATE utf8 bin DEFAULT NULL COMMENT ' 设 备 编号 '， 
'dataType' varchar(50)COLLATE utf8 bin DEFAULT NULL COMMENT ' 数 据 类 型 '， 
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'appType' varchar(100)COLLATE utf8 bin DEFAULT NULL COMMENT ' 应 用 类 型 '， 

'pname' varchar (50) COLLATE utf8 bin DEFAULT NULL COMMENT "用 户 姓 名 '， 

'sendFlag' char(1)COLLATE utf8 bin DEFAULT '0' COMMENT ' 发 送 标识 '， 

'receiveTime' varchar(20)COLLATE utf8 bin DEFAULT NULL COMMENT "接收 
时 间 '， 

'realTime' varchar(20)COLLATE utf8 bin DEFAULT NULL COMMENT ' 数 据 真实 
时 间 '， 

'sendTime' varchar (20) COLLATE utf8 bin DEFAULT NULL COMMENT ' 转 发 时 间 '， 

'deviceType' varchar (50) COLLATE utf8 bin DEFAULT NULL COMMENT ' 设 备 类 
型 :手机 计 步 为 PHONE', 

'dataValue' varchar(1500)COLLATE utf8 bin DEFAULT NULL COMMENT "数据 
AR", 


"AppA 


"AppB _ 
'AppC _ 


'AppD 


flag' char(1)COLLATE utf8 bin DEFAULT '0' COMMENT 'AppA 发 送 标识 '， 
flag' char(1)COLLATE utf8 bin DEFAULT '0' COMMENT 'AppB 发 送 标识 '， 
flag' char(1)COLLATE utf8 bin DEFAULT '0' COMMENT 'AppC 发 送 标识 '， 
flag' char(1)COLLATE utf8 bin DEFAULT '0' COMMENT 'AppD 发 送 标识 '， 


PRIMARY KEY('id') 
)ENGINE-InnoDB AUTO INCREMENT-191 DEFAULT CHARSET-utf8 COLLATE-utf8 


bin; 
/*Table 


structure for table 'user' */ 


DROP TABLE IF EXISTS 'user'; 

CREATE TABLE 'user' ( 
'id' int(11)NOT NULL AUTO INCREMENT, 
'apptype' varchar(255)COLLATE utf8 bin DEFAULT NULL, 
'email' varchar(255)COLLATE utf8 bin DEFAULT NULL, 
'idcard' varchar(255)COLLATE utf8 bin DEFAULT NULL, 
'mark' varchar(255)COLLATE utf8 bin DEFAULT NULL, 
'name' varchar(255)COLLATE utf8 bin DEFAULT NULL, 
'password' varchar(255)COLLATE utf8 bin DEFAULT NULL, 
'phone' varchar(255)COLLATE utf8 bin DEFAULT NULL, 
'realname' varchar(255)COLLATE utf8 bin DEFAULT NULL, 
PRIMARY KEY('id') 

)ENGINE-InnoDB AUTO INCREMENT-4 DEFAULT CHARSET-utf8 COLLATE=utf8 bin; 

/*Table structure for table 'userbaseinfo' */ 

DROP TABLE IF EXISTS 'userbaseinfo'; 

CREATE TABLE 'userbaseinfo' ( 


user 
'user 
'user 
“user 
"user 
"user 


"user 


email' varchar (100)COLLATE utf8 unicode ci NOT NULL, 
passwd' varchar (100)COLLATE utf8 unicode ci NOT NULL, 
realName' varchar(100)COLLATE utf8 unicode ci DEFAULT NULL, 
birth' datetime DEFAULT NULL, 

sex' bigint (1)DEFAULT NULL, 

phone' varchar (50) COLLATE utf8 unicode ci NOT NULL, 
registerTime' datetime DEFAULT NULL, 


‘user pic' varchar(100)COLLATE utf8 unicode ci DEFAULT NULL, 
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'activateflag' char(1)COLLATE utf8 unicode ci DEFAULT '0' COMMENT 
"0 表示 未 激活 , 1 表示 已 经 激活 '， 

'shortmsgflag' char(1)COLLATE utf8 unicode ci DEFAULT '1' COMMENT 
"0 表示 不 发 送 短信 提醒 , 1 表示 发 送 短信 提醒 '"， 

PRIMARY KEY('user email'), 

KEY 'ind userbaseinfo userpasswd' ('user passwd'), 

KEY 'ind userbaseinfo userphone' ('user phone') 

)ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8 unicode ci; 


/*Table structure for table 'userparaminfo gateway' */ 
DROP TABLE IF EXISTS 'userparaminfo gateway'; 
CREATE TABLE 'userparaminfo gateway' ( 
'phone' varchar (50)NOT NULL, 
'weight' varchar (50) DEFAULT NULL, 
"age' varchar (50) DEFAULT NULL COMMENT ' 年 龄 段 '， 
'height' varchar (50) DEFAULT NULL COMMENT ' 身 高 '， 
'sex' char(1) DEFAULT NULL COMMENT ' 性 别 ,1 表示 男 ,0 表示 女 '， 
'changetime' datetime DEFAULT NULL COMMENT ' 更 改 时 间 '， 
'needsend' char(1)DEFAULT NULL COMMENT '0 表示 没有 下 推 到 智能 终端 运动 设备 ， 
1 表示 已 经 下 推 到 智能 终端 运动 设备 '， 
'datafromip' varchar (50) DEFAULT NULL, 
'datafromdomain' varchar (50) DEFAULT NULL, 
'port' varchar (50) DEFAULT NULL, 
"autouploadtime' varchar (50) DEFAULT NULL, 
PRIMARY KEY ('phone') 
)ENGINE=InnoDB DEFAULT CHARSET=gbk; 


/*Table structure for table 'usertbl' */ 
DROP TABLE IF EXISTS 'usertbl'; 
CREATE TABLE 'usertbl' ( 
'id' int(10)NOT NULL AUTO INCREMENT, 
'devicelD' varchar(100)COLLATE utf8 unicode ci NOT NULL DEFAULT '' 
COMMENT ' 设 备 编号 '， 
"patientID' varchar(100)COLLATE utf8 unicode ci DEFAULT NULL COMMENT 
FMS", 
'deviceType' varchar (100)COLLATE utf8 unicode ci DEFAULT NULL COMMENT 
"设备 类 型 '， 
'appType' varchar(100)COLLATE utf8 unicode ci DEFAULT NULL COMMENT 
"应 用 类 型 ,多 个 之 间 以 分 号 分 隔 "， 
'deviceUseFlag' varchar (100)COLLATE utf8 unicode ci DEFAULT '1' 
COMMENT '1 正常 使 用 ,0 停 用 '， 
'company' varchar(100)COLLATE utf8 unicode ci DEFAULT NULL COMMENT 
' 单 位 代号 '， 
'pname' varchar(100)COLLATE utf8 unicode ci DEFAULT NULL COMMENT "姓名 '， 
'email' varchar(100)COLLATE utf8 unicode ci DEFAULT NULL COMMENT "邮箱 ' ， 
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'teamName' varchar (100)COLLATE utf8 unicode ci DEFAULT NULL COMMENT 
HA", 

'companyName' varchar(100)COLLATE utf8 unicode ci DEFAULT NULL, 

'isActivate' varchar(10)COLLATE utf8 unicode ci DEFAULT '0' COMMENT 
"0 未 激活 ,1 已 激活 '， 

'lastTime' varchar(100)COLLATE utf8 unicode ci DEFAULT NULL COMMENT 
' 最 后 一 次 上 传 数据 时 间 '， 

'modifyTime' varchar(20)COLLATE utf8 unicode ci DEFAULT NULL COMMENT 
' 用 户 信 息 最 新 修改 时 间 '， 

'ywId' varchar(20)COLLATE utf8 unicode ci DEFAULT NULL COMMENT "HÈ 
在 业务 系统 的 id'， 

PRIMARY KEY('id'), 

UNIQUE KEY 'index usertbl diviceid' ('deviceID'), 

UNIQUE KEY 'userId' ('ywId'), 

KEY 'index usertbl patientid' ('patientID'), 

KEY 'index usertbl company' ('company'), 

KEY 'index usertbl useflag' ('deviceUseFlag') 

)ENGINE-InnoDB AUTO INCREMENT-81 DEFAULT CHARSET-utf8 COLLATE-utf8 
unicode ci; 


/*!40101 SET SQL MODE=@OLD SQL MODE */; 

/*140014 SET FOREIGN KEY CHECKS=@OLD FOREIGN KEY CHECKS */; 
/*!40014 SET UNIQUE CHECKS=@OLD UNIQUE CHECKS */; 

/*140111 SET SQL NOTES-6OLD SQL NOTES */; 


O 数据 库 表 设计 结果 如 图 2-16 所 示 。 


userparaminfo gateway [m] | | user product product datatype [E] 
RU- RAT | RAE- | | FRRE- 
F phone Pid ^ appID Pid 
weight apptype appDesc Ei dataTypelD 
age email appName productio 
height Head appsendriag | toggle 
sex mark appToggle updatetTime 
changetime name appurl 
needsend password updateTime 
datafromip phone appQueueName 
datafromdomain realname 
port 
autouploadtime sports 回 
En“ 
Pid 
phone 
usertbl 回 userbaseinfo a | devicelD 
Ry- 5 ya- dataType 
Pid ^ P user. email dataTypeName appType 
devicelD user_passwd tableName pana 
patientID user_realName updateTime sendrlag 
deviceType user_birth receiveTime 
appType |e user_sex realTime 
deviceUse... | | user. phone sendTime 
company user_registerTime deviceType 
pname user_pic dataValue 
email 4 activateflag AppA_flag 
teamName shortmsgfiag AppB_flag 
company... AppC. flag 
isActivate ~ AppD flag 


2-16 数据库 设 计 
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2.4 项 目 小 结 


1. Mina 框架 核心 接口 IoFilter、IoHandler 总 结 

IoFilter 和 IoHandler 是 Mina 最 为 核心 的 两 个 接口 。 当 Mina 接收 到 数据 以 后 , 首先 
会 传 到 IoFilter 链 中 。 在 IoFilter 链 中 ， 可 以 实现 编 解码 、 黑 白 名 单 过 滤 、 日 志 记 录 、 开 
启 业务 处 理 线程 池 等 功能 。 在 本 章 中 ,使 用 组 合 和 迭代 模式 ， 将 解码 器 进行 组 装 ， 然 后 在 
自 定 义 IoFilter 类 ComponentIOFilter 的 核心 方法 messageReceived 中 调用 组 装 解码 器 进 
行 解码 操作 。 当 解码 成 功 后 ， 将 解码 后 的 javaBean 传 给 下 一 个 IoFilter。 当 解码 失败 后 ， 
将 接受 到 的 IoBuffer 数据 同样 传递 到 下 一 个 解码 器 进行 解码 。 当 数据 在 IoFilter 链 中 传 
递 完毕 后 ， 会 传递 给 loHandler 中 。 

IoHandler 主要 功能 就 是 业务 数据 处 理 。 在 本 章 中 , 编写 了 IoHandler 自 定义 扩展 类 
StrategyFactroyHandler， 重 写 业 务 处 理 核 心 方法 messageReceived， 对 接收 到 的 message 
数据 进行 分 策略 、 分 状态 入 库 处 理 。 

2. 性 能 调 优 

当 业 务 代码 完成 时 , 就 需要 考虑 服务 的 性 能 问题 了 , 性 能 调 优 是 一 个 优秀 程序 员 必 
备 的 素质 。 在 本 章 中 ,数据 接收 采用 的 是 Mina 框架 。Mina 会 提供 一 些 参数 来 让 使 用 者 
根据 业务 数据 量 、 服 务 器 配置 的 不 同 来 调整 服务 性 能 。 性 能 调 优 方法 如 下 。 

(1) Session 的 关闭 与 空间， 对 于 长 连接 来 说 ， 一 旦 客户 端 与 服务 端 连 接 上 ， 就 会 
一 直 保持 连接 ， 服 务 端 会 一 直 保 存 会 话 session。 但 是 对 于 短 连接 来 说 ， 数 据 发 送 完毕 
后 ， 就 应 该 及 时 关闭 连接 。 这 样 ， 可 以 减少 服务 器 压力 。Mina 的 接口 IoSession 就 是 用 
来 管理 session 的 。IoSeesion 有 个 重要 的 方法 session.close (false) 就 是 用 来 关闭 session 
的 。 那 么 何 时 需要 关闭 session 呢 。 首 先 ， 当 模拟 器 传 上 退出 登录 包 时 ， 就 需要 关闭 
session。 其 次 ， 当 读 写 通道 在 一 段 时 间 内 无 任何 操作 〈 也 就 是 服务 端 与 客户 端 没有 数据 
交互 ) 时 ， 则 需要 关闭 session。 这 里 ， 可 以 通过 acceptor.getSessionConfig().setIdle Time 
(IdleStatus. BOTH. IDLE，40) 来 设置 读 写 通道 空闲 时 间 来 关闭 session. 

(2) Mina 线程 数 : Mina 是 一 个 多 线程 高 并 发 数据 处 理 框架 。 既 然 是 多 线程 ， 必 然 
可 以 设置 线程 的 启动 个 数 。 在 创建 Mina 服务 端 时 , 需要 用 到 new NioSocketAcceptor (int 
processorcount) 方法 ， 构 造 函 数 里 的 参数 就 是 要 开启 线程 的 个 数 。Mina 默认 开启 的 线 
程 数 是 计算 机 cpu 的 核 数 +1。 这 里 的 参数 没有 固定 的 数值 , 必须 是 程序 员 根 据 服务 器 的 
性 能 来 经 过 大 量 的 测试 调整 完成 。 

3. 业务 树 构建 方法 

考虑 到 业务 的 扩展 性 和 程序 的 耦合 性 ， 本 章 中 解码 器 的 组 装 采 用 了 组 合 和 和 迭代 模 
式 。 具 体 组 装 过 程 可 以 参考 代码 如 下 : 
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<bean id="unitASportsComponent" class="com.cloud.mina.component.filter. 
UnitASportComponent"> 
<property name="list"> 
<list> 
<bean class="com.cloud.mina.component.unit a.sport. 
SportLoginParser" /> 
<bean class="com.cloud.mina.component.unit a.sport. 
No80neWayParser" /> 
<bean class="com.cloud.mina.component.unit a.sport. 
No8TwoWayParser" /> 
<bean class="com.cloud.mina.component.unit_a.sport. 
No8ThreeWayParser" /> 
<bean class="com.cloud.mina.component.unit_a.sport. 
SportLogoutParser" /> 
</list> 
</property> 
</bean> 
<bean id-"mHRootComponent" class="com.cloud.mina.component.filter. 
MHRootComponent"> 
<property name="list"> 
<list> 
<ref bean="unitASportsComponent"></ref> 
<ref bean="unitABPComponent"></ref> 
</list> 
</property> 
</bean> 


从 上 述 代码 不 难看 出 ， 采 用 List 集合 的 方式 来 存储 各 个 解码 器 的 层级 关系 。 对 于 
本 章 业务 来 说 ， 智 能 终端 运动 数据 包 分 登录 包 、1 号 包 、2 号 包 、3 号 包 和 退出 包 ， 同 
时 智能 终端 运动 数据 是 unitA 下 的 一 个 运动 子 业务 , 这样 就 存在 着 层级 关系 。 所 以 ,unitA 
业务 对 应 一 个 解码 器 , 这 个 解码 器 包含 智能 终端 运动 父 解码 器 , 同时 智能 终端 运动 父 解 
码 器 包含 各 个 数据 包 对 应 的 底层 解码 器 。 当 进行 解码 时 , 永远 都 是 由 最 外 层 找到 最 内 层 
的 解码 器 。 例 如 ， 多 个 文件 归 类 到 同一 个 文件 夹 下 。 当 你 想 要 去 找 某 一 个 文件 时 ， 就 首 
先 会 进入 目录 ， 递 归 找 每 个 子 文件 和 子 文件 中 的 文件 ， 直 至 找到 目标 文件 。 
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架构 之 道 分 享 之 三 : 孙子 兵法 的 《 谋 攻 篇 》 论 述 了 “不 战 而 屋 人 之 兵 ” 的 战略 指 
导 思 想 ， 以 最 小 代价 赢得 战争 ， 并 揭示 了 “知己 知 彼 ， 百 战 不 殉 ” 的 指导 规律 。 借 鉴 
到 项 目 设计 上 , 我 们 在 深 挖 项 目 需求 后 , 不 仅 要 广泛 调研 主流 技术 和 解决 方案 , 而 且 
要 进行 严格 的 设计 评审 后 再 开发 。 


k 熟悉 观察 者 模式 工作 原理 和 开发 步骤 
A 精通 点 对 点 的 多 种 即时 通信 原理 和 方法 
* 掌握 多 线程 转发 的 灵活 配置 和 线程 同步 技巧 


3.1 核心 需求 分 析 和 优秀 解决 方案 


在 第 2 章 中 的 高 并 发 采集 服务 中 ， 物 联网 大 数据 通过 高 并 发 Mina 框架 接收 到 了 
UnitA 公司 的 智能 终端 运动 数据 包 ， 并 把 智能 终端 运动 包 存储 到 了 sports 表 ， 完 成 了 物 
联网 大 数据 接收 和 存储 。 接 下 来 , 我 们 要 按照 业务 需求 查询 这 些 智能 终端 运动 数据 发 送 
到 公司 的 不 同 应 用 上 。 此 时 的 转发 服务 要 考虑 灵活 性 和 可 扩展 性 ,同时 要 兼顾 系统 的 高 
性 能 。 系 统 灵活 性 是 指 灵 活 配 置 和 修改 ， 当 业务 需求 不 断 更 新 时 ， 需 要 对 SQL 和 系统 
配置 进行 修改 ， 如 果 能 在 配置 文件 或 者 数据 库 中 设置 并 修改 ， 可 以 大 大 减少 维护 成 本 ; 
系统 可 扩展 是 指 转发 不 同 的 数据 包 给 不 同 的 公司 应 用 系统 , 随 着 业务 的 不 断 发 展 , 需要 
按照 需求 增加 转发 对 象 和 数据 。 为 了 解决 这 一 难题 ， 可 以 采用 观察 者 设计 模式 增加 不 同 
的 发 送 对 象 ， 同 时 不 会 影响 在 线 业 务 ; 系统 的 高 性 能 是 指 转发 效率 要 高 ， 可 以 通过 自主 
开发 多 线程 实现 高 性 能 转发 。 接 下 来 就 是 围绕 转发 服务 的 灵活 性 、 可 扩展 性 和 高 性 能 进 
行 设计 和 实现 。 


3.2 ”服务 引擎 的 技术 架构 设计 


COD 大 数据 灵活 转发 服务 引擎 包括 5 个 核心 模块 ， 如 图 3-1 所 示 ， 每 一 个 模块 要 考 
虑 灵活 性 、 可 扩展 性 和 高 性 能 等 关键 因素 ， 设 计 说 明 如 下 。 
O 核心 模块 一 : 构建 Spring MVC 工程 ， 主 要 包括 web.xml, pom.xml 等 文件 的 配 
置 ， 构建 Spring Boot 工程 ， 主 要 包括 pom.xml, application properties 等 文件 的 配置 。 
Q) 核心 模块 二 : 考虑 到 业务 的 灵活 性 ， 在 配置 文件 中 配置 业务 的 处 理 方式 以 及 开关 。 
O 核心 模块 三 : 一 条 数据 被 多 个 App 共享 ， 故 采用 观察 者 模式 来 解决 1 对 多 的 应 
场景 ， 通 过 创建 主题 与 观察 者 来 实现 数据 发 送 。 
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O 核心 模块 四 : 为 了 提升 发 送 效率 ， 采 用 自主 研发 多 线程 来 发 送 数据 内 容 ， 针 对 
一 个 发 送 对 象 启动 多 个 线程 ， 可 以 提升 发 送 效 率 。 

O 核心 模块 五 : 采用 Post 方式 发 送 数据 内 容 ， 需 要 调用 主流 的 中 间 件 Apache 
HttpClient 来 提升 发 送 效率 ; 采用 Active MQ 方式 发 送 数据 内 容 ， 需 要 调用 MQ 的 发 送 
接口 发 送 消息 到 消息 队列 中 ， 然 后 MQ 推送 给 已 经 订阅 了 的 应 用 系统 。 

(2) 构建 Spring MVC 版 本 的 BD_DispatchServer Maven 服务 工程 框架 ， 如 图 3-2 
所 示 。 


Hf Package Explorer 53 eð» -sa 
4 53 BD_DispatchServer Maven A 
4 9 src/main/java LL 
4 EB comicloud 
> # bean 
> ffi controller 
> 8B send 
> 8 service! 
> GB strategy 
> il 
4 $9. src/main/resources 
4 > com 
4 (3 Config 
E SysConf.properties 
E <3p0-configxml 
E logdj.properties 
E sroftest/java 
£9. sreftest/resources 
> BÀ JRE System Library [JavaSE-1.7] 
> gi Maven Dependencies 
> o src 
> © target 
B pommi 


3-2 ”灵活 转发 服务 spring 版 本 工程 
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(3) 构建 Spring Boot 版 本 的 BD_DispatchServer Boot 服务 工程 框架 ， 如 图 3-3 
所 示 。 


I$ Package Explorer 5% 日 图 > > = 日 
4 | BD DispatchServer Boot ^ 
4 (9. src/main/java E 


4 由 comcloud 
E bean 


& controller 


BB service 
4 EH springboot 
[N DispatchBootStarter java 
出 strategy 
B util 


4 (9 src/main/resources 


m 


4 (> com 
4 (> Config 
3) SysConf properties 
B application.properties 
4X) c3p0-config.xml 
(9 src/test/java 
(9^ src/test/resources 3 


BA Maven Dependencies 
BÀ JRE System Library (JavaSE-1.8] 


& src 


© target 


加 pom.xml 


图 3-3 ”灵活 转发 服务 Spring Boot 版 本 工程 


(4) 针对 如 上 模块 设计 ， 编 写 UML 代码 架构 图 ， 完 成 核心 模块 和 类 关系 的 构建 。 
架构 设计 如 下 。 

O 核心 模块 之 一 架构 设计 : 是 建立 发 送 主题 Subject 抽象 类 和 DataSaveSubject A. 
体 类 ， 存 放 观 察 者 对 象 Observer 接口 。 同 时 主题 和 观察 者 的 创建 由 发 送 主题 工厂 
SbujectFactory 来 完成 ， 这 样 为 后 续 增加 信息 的 发 送 主题 保证 了 可 扩展 性 。 

@ 核心 模块 之 二 架构 设计 : 初始 化 发 送信 息 并 保存 到 AppInfoContext 类 的 内 存 中 ， 
包括 发 送 目标 应 用 名 称 appType、 发 送 开 关 appSendFlag、 发 送 标志 sendFlag、 发 送 地 址 
sendPath 和 发 送 队列 名 称 appQueueName 等 ， 这 些 信 息 保 存在 数据 库 product 表 中 ， 发 
送 之 前 加 载 到 内 存 List<HashMap<String，String>> list 中 ， 可 以 加 快 发 送 效 率 。 

@ 核心 模块 之 三 架构 设计 : 发 送 对 象 是 所 有 接收 大 数据 平台 的 应 用 系统 ， 主 要 通 
过 post 接口 方式 和 MQ 消息 队列 方式 进行 数据 发 送 。 因 此 通过 在 系统 配置 文件 
SysConf properties 中 可 以 灵活 配置 发 送 方式 sendWayList=sendWay_1, sendWay_2, Ll 
及 对 应 的 发 送 开 关 sendWay 1 toggle=on、sendWay 2 toggle=off。 利 用 配置 开关 可 以 实 
现 灵活 选择 发 送 方式 和 启 闭 ， 为 后 续 的 业务 扩展 和 需求 变更 提供 了 便利 。 

D 核心 模块 之 四 架构 设计 : 为 了 提升 发 送 效率 ， 我 们 采用 多 线程 CommonThread 
来 发 送 数 据 内 容 。 同时 为 了 避免 相同 的 业务 处 理 开启 重复 的 线程 , 采用 了 线程 “threadKey= 
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appType +"_" + datatype +"_" + sendWay: ”在 开启 线程 前 判断 是 否 已 经 有 同样 线程 key 
的 线程 在 启动 。 若 有 ， 则 不 启动 新 线程 ; 否则， 开启 新 线程 。 这样 可 以 保证 线程 数目 和 
效率 兼顾 的 平衡 。 

O 核心 模块 之 五 架构 设计 : 采用 PostStrategy 发 送 策略 , 调用 主流 的 中 间 件 Apache 
HttpClient， 创 建 一 个 PostMethod 对 象 ， 加 载 发 送 路 径 url 后 ， 封 装 发 送 数据 并 进行 数 
HER: 采用 MQ 方式 发 送 数据 内 容 ， 先 连接 activeMq 服务 ， 封 装 发 送 数据 参数 ， 指 
定 消息 队列 名 称 并 进行 数据 转发 。 

O 灵活 转发 服务 整体 架构 图 如 图 3-4 所 示 。 


AppInfoContext 
+static HashMap «String, HashMap «String, String>> info 


i 


Se <<interface>> hreadStateFlag 
z Observer EM M! 
perle] mt +static HashMap «String, ThreadStateFlag> Map 
|Fattachfobserver cbesrve | +update(Subject subject) +getinstance(String key)0 
qt bee) a " 
AbstractObserver CommonThread | StrategyContext 
DataAnalysizeSubject| | DataSaveSubject +sendrlag:String HableName:Sting 
SSS +appType:String |-> +basequerySalstring 
++sendPath:String dbssetpdatesd Sting 
A eommonupdate(Subject subjecd0| | rung 
TS X = L 
SubjectFactory \ maStrategy tegy 
+getSubject(String appType, String dataType): Subject N 
sendData CommonObserver CommonObsever2 | | PropertiesReader| 
+C3POUti.getDataQ) +update(Subject subject)O | | +update(Subject subject) 


图 3-4 大 数据 灵活 转发 服务 整体 设计 


3.3 ”核心 技术 讲解 及 模块 化 实现 


3.3.1 Spring MVC Web 服务 构建 


(1) 配置 项 目 所 需要 的 jar 包 依赖 ， 主 要 包括 spring, Spring MVC. 日 志 、MySQL 
数据 库 、ActiveMQ 等 。 在 pom.xml 中 添加 依赖 如 下 : 


<project xmlns-"http://maven.apache.org/POM/4.0.0" xmlns:xsi-"http:// 
www.w3.0rg/2001/XMLSchema-instance" 
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache. 
org/xsd/maven-4.0.0.xsd"> 
<modelVersion>4.0.0</modelVersion> 
<groupId>com.cloud.send</groupId> 
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<groupId>org.apache.activemq</groupId> 
<artifactId>activemq-core</artifactId> 
<version>5.3.0</version> 
</dependency> 
<!-- json 配置 --> 
<dependency> 
XgroupId»net.sf.json-lib«/groupId» 
<artifactId>json-lib</artifactId> 
<version>2.3</version> 
<classifier>jdk15</classifier> 
</dependency> 
</dependencies> 
</project> 


(2) Web 项 目的 入 口 web.xml 文件 ,主要 用 于 Spring MVC、 日 志 记录 等 配置 加 载 。 
配置 如 下 : 


<?xml version="1.0" encoding="UTF-8"?> 
<web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xmlns-"http://java.sun.com/xml/ns/javaee" xmlns:web="http:// 
java.sun.com/xml/ns/javaee/web-app 2 5.xsd" 
xsi:schemaLocation="http://java.sun.com/xml/ns/javaee http:// 
java.sun.com/xml/ns/javaee/web-app 2 5.xsd"id="WebApp ID" 
version="2.5"> 
<display-name>dispatch</display-name> 
<context-param> 
<param-name>webAppRootKey</param-name> 
<param-value>webapp.dispatch.root</param-value> 
</context-param> 
<context-param> 
<param-name>log4jRefreshInterval</param-name> 
<param-value>60000</param-value> 
</context-param> 
<context-param> 
<param-name>contextConfigLocation</param-name> 
<param-value>WEB-INF/spring/app-config.xml</param-value> 
</context-param> 
<filter> 
<filter-name>CharacterEncodingFilter</filter-name> 
<filter-class>org.springframework.web.filter.CharacterEncodingFilter 
</filter-class> 
<init-param> 
<param-name>encoding</param-name> 
<param-value>UTF-8</param-value> 
</init-param> 
<init-param> 
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<param-name>forceEncoding</param-name> 
<param-value>true</param-value> 
</init-param> 
</filter> 
<filter-mapping> 
<filter-name>CharacterEncodingFilter</filter-name> 
<url-pattern>/*</url-pattern> 
</filter-mapping> 
<listener> 


<listener-class>org.springframework.web.context.ContextLoader Listener 
</listener-class> 
</listener> 
<listener> 
<listener-class>org.springframework.web.util.Log4jConfigListener 
</listener-class> 
</listener> 
<servlet> 
<servlet-name>SpringMVC</servlet-name> 
<servlet-class>org.springframework.web.servlet.DispatcherServlet 
</servlet-class> 
<init-param> 
<param-name>contextConfigLocation</param-name> 
<param-value>WEB-INF/spring/mvc-config.xml</param-value> 
</init-param> 
<load-on-startup>1</load-on-startup> 
</servlet> 
<servlet-mapping> 
<servlet-name>SpringMVC</servlet-name> 
<url-pattern>*. json</url-pattern> 
<url-pattern>/service/*</url-pattern> 
<url-pattern>/</url-pattern> 
</servlet-mapping> 


</web-app> 


(3) Spring MVC 的 核心 配置 文件 app-config xml， 主 要 作用 是 扫描 指定 包 下 的 注解 ， 
将 其 注册 到 Spring 容器 中 。 配 置 如 下 : 


<?xml version-"1.0" encoding="UTF-8"?> 
<beans xmlns-"http://www.springframework.org/schema/beans" 
xmlns:xsi="http://www.w3.0rg/2001/XMLSchema-instance" 
xmlns:context="http: //www.springframework.org/schema/context" 
xmlns:tx="http://www.springframework.org/schema/tx" 
xmlns:aop="http://www.springframework.org/schema/aop" 
xsi:schemaLocation=" 
http://www.springframework.org/schema/beans 
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http://www.springframework.org/schema/beans/spring-beans-3.2.xsd 
http://www.springframework.org/schema/context 
http: //www.springframework.org/schema/context /spring-context-3.2.xsd 
http: //www.springframework.org/schema/tx 
http: //www.springframework.org/schema/tx/spring-tx-3.2.xsd 
http: //www.springframework.org/schema/aop 
http://www. springframework.org/schema/aop/spring-aop-3.2.xsd"> 
<context:annotation-config /> 
<context:component-scan base-package="com.cloud"> 
<context:exclude-filter type="annotation" expression= 
"org.springframe work.stereotype.Controller"/> 
</context : component-scan> 
</beans> 


(4) Spring MVC 的 核心 配置 文件 mvc-config xml， 用 于 扫描 controller 层 注解 、 视 
图 解析 器 、 配 置 异常 拦截 器 等 。 配 置 如 下 : 


<?xml version="1.0" encoding="UTF-8"?> 


<beans xmlns="http://www.springframework.org/schema/beans" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:mvc= 
"http://www.springframework.org/schema/mvc" 
xmlns:context-"http://www.springframework.org/schema/context" 
xsi:schemaLocation-" 
http://www.springframework.org/schema/beans http://www. 
springframework.org/schema/beans/spring-beans-3.2.xsd 
http://www.Springframework.org/schema/mvc http://www. 
springframework.org/schema/mvc/spring-mvc-3.2.xsd 
http://www.springframework.org/schema/context http://www. 
springframework.org/schema/context/spring-context-3.2.xsd"> 
<!-- 1. scan all package --> 
<context:component-scan base-package="com.cloud"> 
<context:include-filter type="annotation" 
expression="org.springframework.stereotype.Controller" /> 
</context:component-scan> 
<!-- 2. import servlet view resolver --> 
<bean 
class="org.springframework.web.servlet.view. 
InternalResourceView Resolver"> 
<property name="order" value="2" /> 
<property name="viewClass" 
value="org.springframework.web.servlet.view.JstlView" /> 
<property name="prefix" value="/jsp/" /> 
<property name="suffix" value=".jsp" /> 
</bean> 
<!-- 3. support file upload MultipartResolver --> 
<mvc:default-servlet-handler /> 
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<bean 
class="org.springframework.web.servlet.handler. 
SimpleMapping ExceptionResolver"> 
<property name="exceptionMappings"> 
<props> 
<prop key="org.springframework.dao.DataAccessException"> 
dataAccessFailure</prop> 
<prop key="org.springframework.transaction. 
Transaction Exception">dataAccessFailure</prop> 
</props> 
</property> 
</bean> 
<!-- 4. support annotation --> 
<mve:annotation-driven /> 
</beans> 


(5) Log4j 日 志 配置 文件 ， 主 要 设置 日 志 输 出 级 别 、 格 式 、 以 及 文件 位 置 等 。 配 置 
如 下 : 


log4j.rootCategory = INFO,out,file,LF5 

$10g4j.appender.LF5-org.apache.log4j.lf5.LF5Appender // 是 否 弹出 日 志 框 

# 控 制 台 输出 日 志 

log4j.appender.out-org.apache.10g4j.ConsoleAppender 

log4j.appender.out.layout-org.apache.10g4j.EnhancedPatternLayout 

log4j.appender.out.layout.ConversionPattern-[$t]$d(yyyy-MM-dd HH:mm: 
SS.SSS) | $p| $X(userId)$m$n 

# 文 件 写 入 日 志 

log4j.appender.file = org.apache.10g4j.DailyRollingFileAppender 

log4j.appender.file.layout = org.apache.log4j.PatternLayout 

log4j.appender.file.layout.ConversionPattern = $d %p $L [$t] - $m$n 


# logger for apache 
log4j.logger.org.apache = ERROR 


3.3.2 Spring Boot 微服 务 构建 


COD 本 服务 采用 IDK1.8 版 本 、Spring Boot 1.5.2.Release 版 本 、C3P0 0.9.0.4 版 本 、 
MySQL 数据 库 驱 动 5.1.6 版 本 、ActiveMQ5.3.0 版 本 等 。 在 pom.xml 文件 中 添加 如 下 依赖 : 


<?xml version="1.0" encoding="UTF-8"?> 

<project xmlns-"http://maven.apache.org/POM/4.0.0" xmlns:xsi-"http:// 
www.w3.org/2001/XMLSchema-instance" 

xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven. 
apache.org/xsd/maven-4.0.0.xsd"> 

<modelVersion>4.0.0</modelVersion> 

<groupId>com.cloud.bigdata</groupId> 

<artifactId>BD DispatchServer B</artifactId> 


a ey a 


第 3 章 ” 大 数据 灵活 转发 微服 务 引擎 


<version>0.0.1-SNAPSHOT</version> 
<packaging>jar</packaging> 
<name>service-hi</name> 
<description>Demo project for Spring Boot</description> 
<parent> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-starter-parent</artifactId> 
<version>1.5.2.RELEASE</version> 
<relativePath/><!-- lookup parent from repository --> 
</parent> 
<properties> 
<project .build.sourceEncoding>UTF-8</project .build.sourceEncoding> 
<project . reporting. outputEncoding>UTF-8</project. reporting. 
output Encoding> 
<java.version>1.8</java.version> 
</properties> 
<dependencies> 
<dependency> 
<groupId>org.springframework.cloud</groupId> 
<artifactId>spring-cloud-starter-eureka</artifactId> 
</dependency> 
<dependency> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-starter-web</artifactId> 
</dependency> 


<dependency> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-starter-test</artifactId> 


<scope>test</scope> 
</dependency> 
<!-- json 配置 --> 
<dependency> 


<groupId>net .sf.json-lib</groupId> 
<artifactId>json-lib</artifactId> 
<version>2.3</version> 
<classifier>jdk15</classifier> 

</dependency> 

<dependency> 
<groupId>org.apache.commons</groupId> 
<artifactId>commons-lang3</artifactId> 
<version>3.0.1</version> 

</dependency> 

<dependency> 
«groupId»commons-httpclient«/groupId» 
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<scope>import</scope> 
</dependency> 
</dependencies> 
</dependencyManagement> 
<build> 
<plugins> 
<plugin> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-maven-plugin</artifactId> 
</plugin> 
</plugins> 
</build> 
<repositories> 
<repository> 
<id>spring-milestones</id> 
<name>Spring Milestones</name> 
<url>https://repo.spring.io/milestone</url> 
<snapshots> 
<enabled>false</enabled> 
</snapshots> 
</repository> 
</repositories> 
</project> 


(2) Spring Boot 的 核心 配置 文件 application.properties， 用 于 指定 项 目 应 用 名 称 、 


端口 、ip 以 及 注册 中 心 eureka 服务 地 址 。 配 置 如 下 : 


server.address=127.0.0.1 
server.port=8081 
spring.application.name=boot-dispatch 
# 注 册 中 心服 务 


eureka.client.serviceUrl.defaultZone-http://localhost:8761/eureka/ 


(3) Spring Boot 的 启动 加 载 类 DispatchBootStarter， 主 要 功能 是 扫描 指定 包 下 的 相 


关注 解 并 初始 化 到 spring 容器 中 ， 同 时 启动 该 服务 。 代 码 实 现 如 下 : 


package com.cloud.Spring Boot; 

import org.springframework.boot.SpringApplication; 

import org.springframework.boot.autoconfigure.Spring BootApplication; 
import org.springframework.cloud.netflix.eureka.EnableEurekaClient; 
import org.springframework.context.annotation.ComponentScan; 

/** 

* spring boot 启动 加 载 类 


* 


* @author changyaobin 
* 


as SiS 
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Ry 

GSpring BootApplication 

@ComponentScan (basePackages = ( "com.cloud" )) 

GEnableEurekaClient 

public class DispatchBootStarter { 

public static void main(String[] args) { 
SpringApplication.run (DispatchBootStarter.class,args); 

} 

} 


333 灵活 配置 和 通用 工具 类 构建 


(1) 系统 应 用 配置 文件 SysConfproperties 主要 功能 是 : 配置 发 送 方式 以 及 开关 
sendWay 1 toggle 和 sendWay_2 togsgle， 相 应 的 发 送 方式 分 别 为 PostStrategy 和 mqStrategy: 
同时 配置 不 同 发 送 方式 下 的 数据 查询 SQL， 实 现 了 真正 意义 上 的 可 灵活 配置 ， 同 时 配 
置 mq 服务 器 地 址 和 消息 队列 名 称 。 有 具体 配置 如 下 : 

#mq 
ESS 2222222222222 2222222 
jms .url=tcp://localhost: 61616 


jms .cachSessionNum=50 
jms . queue . AppA=QueueSport 


##sendWay 

sendWayList=sendWay 1,sendWay 2 

#sendWay 1 的 开关 

sendWay 1 toggle=on 

sendWay 1=PostStrategy 

#sendWay 1 的 查询 数据 sql 语句 

baseQuerySql sendWay 1=SELECT s. *,u.company,u.teamName,u.pname FROM %s 
s,usertbl u WHERE s.$s-'0' AND s.appType LIKE '%s' AND s.phone=u. 
patientID LIMIT 500; 

baseUpdateSql sendWay l=update $s set %s\='1',sendTime\=NOW() where id\=%s 

#sendWay 2 的 开关 

sendWay 2 toggle=off 

sendWay 2=MqStrategy 

baseQuerySql sendWay 2=select * from %s where %s\='0' and appType like 
'$s' limit 500; 

baseUpdateSql sendWay 2-update $s set %s\='2',sendTime\=NOW()where id\=%s 


(2) MySQL 数据 库 操作 工具 类 C3P0Util， 请 参考 第 2 章 数 据 采 集 服 务 的 C3POUtil 
类 ， 其 默认 读 取 classpath 下 的 c3p0-config xml 文件 。 

3) 日 期 操作 工具 类 DateUtil， 请 参考 第 2 章 数据 采集 服务 的 DateUtil 类 。 

(4) 配置 文件 读 取 工 具 类 PropertiesReader， 用 于 将 项 目 中 的 properties 文件 加 载 到 
流 中 ， 根 据 属性 读 取 其 配置 值 ， 相 关 配 置 如 下 : 
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(5) 线程 状态 标识 类 ThreadStateFlag， 主 要 通过 一 个 静态 map 来 存放 key 与 线程 
标识 对 象 的 关系 ， 并 实现 一 个 key 对 应 一 个 实例 ， 不 同 的 key 有 不 同 的 实例 。 代 码 实 
现 如 下 : 


. 
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iMap.put (key,new ThreadStateFlag()); 
return iMap.get (key); 


} 


(6) Http 客户 端 工具 类 HttpClientUtil， 用 于 通过 http 协议 ， 给 指定 路 径 的 服务 发 
送 业务 参数 。 代 码 实现 如 下 : 


package com.cloud.util; 
import java.util.Arrays; 
import org.apache.commons.httpclient.HttpClient; 
import org.apache.commons.httpclient.NameValuePair; 
import org.apache.commons.httpclient.methods.PostMethod; 
import org.apache.commons.httpclient.params.HttpMethodParams; 
/** 
* http 客户 端 工具 类 
* (author changyaobin 
* 
27 
public class HttpClientUtil ( 
public static boolean sendHttpData(String className,String url, 
NameValuePair[] parameter)( 
HttpClient client - new HttpClient(); 
PostMethod post = new PostMethod (url); 
boolean isSuccess-true; 
try ( 
post.getParams () .setParameter (HttpMethodParams.HTTP 
CONTENT CHARSET, "UTF-8"); 
post.setRequestBody (parameter); 
Log.info(className+" send data:"+Arrays.deepToString 
(parameter)); 
// 设 置 连接 超时 时 间 
client.getHttpConnectionManager () .getParams () . 
set ConnectionTimeout (3000); 
// 设 置 响应 超时 时 间 
client.getHttpConnectionManager ().getParams(). 
setSo Timeout (15000); 
int returnFlag = client.executeMethod (post); 
if (returnFlag!=200) { 
isSuccess=false; 
} 
Log.info(className+" success receive form post:" + post. 
getStatusLine () .toString()+",returnFlag="+returnFlag); 
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CD 日 志 记录 类 ILog， 用 于 日 志 信息 写 入 文件 中 。 代 码 实现 如 下 : 


334 创建 发 送 数据 主题 ， 注 册 观 察 者 对 象 


本 服务 中 一 条 智能 终端 运动 数据 会 被 多 个 App 共享 ， 为 了 解决 这 种 一 对 多 的 应 用 场 
景 ， 可 以 采用 观察 者 模式 ， 同 时 使 用 工厂 模式 来 创建 数据 主题 ， 相 关 实 现 过 程 如 下 。 
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CL) 数据 主题 抽象 类 Subject， 定 义 观 察 者 的 集合 和 业务 相关 的 参数 。 代 码 实现 如 下 : 


(2) 数据 保存 主题 实体 类 DataSaveSubject。 该 类 没有 任何 私有 属性 ， 只 是 考虑 了 
以 后 业务 的 扩展 性 创建 的 该 实体 类 。 代 码 实现 如 下 : 


y 
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(3) 观察 者 接口 Observer， 定 义 数据 更 新 方法 ， 具 体 实 现 由 其 子 类 完成 。 代 码 实现 
如 下 : 


package com.cloud.service; 


/** 
* 观察 者 接口 
* (author changyaobin 
* 
s7 
public interface Observer { 
/** 
* 数据 更 新 方法 
* @param subject 被 观察 的 主题 
cy} 


public void update (Subject subject); 
} 


(4) app 的 信息 缓存 类 AppInfoContext， 主 要 使 用 静态 Map 存储 app 的 相关 信息 。 
当 系统 启动 时 即 从 数据 库 读 取 app 信息 到 内 存 , 以 减少 数据 库 访问 次 数 , 若 信息 有 更 新 ， 
则 需要 及 时 刷新 此 上 下 文 。 当 然 ， 当 数据 量 较 小 时 ， 可 以 采取 这 种 方式 。 当 数据 大 的 时 
候 ， 最 好 还 是 采用 redis 等 缓存 数据 库 。app 是 指 转发 的 目标 应 用 系统 。 代 码 实 现 如 下 : 


package com.cloud.util; 
import java.util.HashMap; 
import java.util.List; 
import java.util.Map.Entry; 
import java.util.Set; 
/** 
* 应 用 系统 上 下 文 信息 ， 
* 保存 各 个 app 的 appType, sendFlag, sendPath, appToggle 等 相关 信息 
* <br> 系 统 启动 时 即 从 数据 库 读 取 到 内 存 , 以 减少 数据 库 访问 次 数 , 若 信息 有 更 新 , 则 需要 及 时 
刷新 此 上 下 文 
* 
y 
public class AppInfoContext ( 
public static HashMap<String,HashMap<String,String>> info = new 
HashMap<String, HashMap<String, String>>(); 
static 1 
initAppInfo(); 
} 
public static void initAppInfo(){ 
info.clear(); 
String sql = "SELECT appName as appType, appSendFlag as sendFlag, 
appUrl as sendPath,appToggle,appQueueName FROM product"; 
List<HashMap<String,String>> list = C3POUtil.getData (sql); 
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} 
(5) 


if(list != null && list.size()> 0){ 
for (HashMap<String, String> map:list) { 
info.put (map.get ("appType") , map) ; 


} 
public static String getPropertyByApp (String appType,String prop) { 
initAppInfo(); 
HashMap<String,String> appInfo = info.get (appType); 
if(appInfo != null) { 
return appInfo.get (prop); 
} else { 
return null; 


数据 接收 controller 层 SubjectController， 用 于 接收 数据 采集 服务 发 送 的 数据 ， 


然后 构建 主题 工厂 ， 通 知 观 察 者 进行 更 新 操作 。 代 码 实 现 如 下 : 


package com.cloud.controller; 


import org.apache.commons.lang.StringUtils; 


import org.springframework.web.bind.annotation.RequestMapping; 
import org.springframework.web.bind.annotation.RestController; 
import com.cloud.bean.Message; 


import com.cloud.service.SubjectFactory; 


import com.cloud.util.Log; 


/** 


* 转发 服务 的 controller 层 , 用 于 接收 数据 采集 发 送 来 的 数据 


* 


* @author changyaobin 


* 


t/ 


GRestController 
public class SubjectController ( 
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GRequestMapping ("/sendData") 
public Message sendData (String appType,String dataType) { 
Message message = new Message (); 
if(StringUtils.isBlank(appType)|| StringUtils.isBlank (dataType) ) { 
message .setCode (1000); 
message. setMessage (" 参 数 非 法 ") ; 
return message; 
} 
try { 
// 构建 观察 者 , 并 通知 观察 者 进行 更 新 
SubjectFactory.getSubject (appType, dataType) .notifyObservers () ; 
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message.setCode (1001); 
message.setMessage (" 数 据 发 送 成 功 ") ; 
} catch (Exception e) { 
Log.error ("数据 处 理 , 异常 信息 为 " + e.getMessage ()); 
message.setCode (1002); 
message.setMessage ("数据 处 理 错 误 ") ; 
} 
return message; 


} 


(6) 主题 对 象 工厂 类 SubjectFactory， 主 要 功能 是 创建 DataSaveSubject 主题 ， 并 根 
据 app 来 注册 多 个 观察 者 CommonObserver。 代 码 实 现 如 下 : 


package com.cloud.service; 
import com.cloud.util.AppInfoContext; 
public class SubjectFactory { 
public static Subject getSubject (String appTypes, String dataType) { 
DataSaveSubject subject = new DataSaveSubject (); 
subject.setAppType (appTypes) ; 
subject.setDataType (dataType) ; 
if(appTypes != null && !"".equals (appTypes) ) { 
String[] app = appTypes.split(";"); 
for(String appType:app) { 
11 从 库 中 查询 app 的 发 送 标识 以 及 发 送 路 径 
Observer obs =(Observer) new CommonObserver ( 
AppInfoContext.getPropertyByApp (appType, 
"sendFlag"), 
appType,AppInfoContext.getPropertyByApp 
(appType, "sendPath") ); 
subject .add (obs); 


} 
return subject; 


} 


(7) AbstractObserver 观察 者 抽象 类 ， 主 要 功能 是 提供 观察 者 子 类 通用 的 方法 。 在 
方法 实现 中 ， 定 义 了 线程 标识 “threadKey = appType + " " + datatype + "_" + sendWay”. 
当 不 存在 数据 转发 的 线程 〈 或 线程 已 死亡 ) 时 ， 重 新 启动 线程 CommonThread 进行 数据 
转发 。 当 线程 存在 时 ， 不 需要 重新 启动 线程 。 这 样 避 免 了 不 必要 的 性 能 消耗 。 代 码 实 现 
如 下 : 


package com.cloud.service; 


import java.util.HashMap; 
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import java.util.Random; 
import com.cloud.util.PropertiesReader; 
import com.cloud.util.ThreadStateFlag; 
public abstract class AbstractObserver implements Observer { 
protected void commonUpdate (Subject subject,String appType, 
String sendFlag,String sendPath, 
HashMap<String,CommonThread> threadMap) ( 
String datatype = subject.getDataType(); 
String sendWayList = PropertiesReader.getProp ("sendWayList"); 
String[] sendWayArray = sendWayList.split (","); 
if(sendWayList == null) { 
return; 
} 
for (String sendWay:sendWayArray) { 
// 读 取 配 置 文件 , 判断 该 发 送 方式 是 否 开启 
if (!"on".equals (PropertiesReader.getProp (sendWay+" toggle"))){ 
continue; 
} 
// 定义 线程 的 唯一 性 
String threadKey = appType + " " + datatype + " " + sendWay; 
if (threadMap.containsKey (threadKey) ) { 
CommonThread thread = threadMap.get (threadKey) ; 
if (thread. isAlive()) { 
continue; 


} 

CommonThread thread = new CommonThread (sendWay, 
ThreadStateFlag.getInstance (threadKey) , datatype, 
sendFlag, appType, sendPath) ; 

thread. setName (threadKey) ; 

thread.start (); 

threadMap.put (threadKey, thread); 


) 


(8) 定义 观察 者 具体 类 CommonObserver， 主 要 功能 是 接收 业务 参数 ， 并 调用 父 类 
的 更 新 方法 来 实现 数据 转发 。 代 码 实现 如 下 : 
package com.cloud.service; 
import java.util.HashMap; 
public class CommonObserver extends AbstractObserver { 
private String sendFlag = null; 


private String sendPath = null; 
private String appType = null; 


} 


第 3 章 ”大 数据 灵活 转发 微服 务 引擎 


private static HashMap<String,CommonThread> threadMap = new HashMap 
<String, CommonThread> (); 
public CommonObserver (String sendFlag, String appType, String sendPath) { 
this.sendFlag = sendFlag; 
this.sendPath = sendPath; 
this.appType = appType; 
} 
@Override 
public void update (Subject subject) { 
commonUpdate (subject, appType, sendFlag, sendPath, threadMap) ; 


335 启动 多 线程 进行 数据 发 送 

设置 线程 唯一 标识 “threadKey = appType + "_" + datatype + "_" + sendWay”。 若 线 
程 需要 启动 ， 利 用 这 个 线程 key 可 以 生产 一 个 唯一 的 单 例 对 象 ThreadStateFlag， 将 该 对 
象 作为 线程 同步 锁 , 这 样 可 以 避免 多 线程 的 并 发 问题 。 同 时 在 线程 中 根据 不 同 的 发 送 方 


式 来 调 月 


(1) 


不 同 的 发 送 策略 进行 数据 发 送 。 
数据 发 送 线程 类 CommonThread， 主 要 功能 是 通过 发 送 标识 查询 未 发 送 的 数据 ， 


然后 根据 发 送 方式 来 调用 相应 的 发 送 策略 来 进行 数据 的 转发 , 并 更 新 发 送 标识 。 代 码 实 


现 如 下 : 


package com.cloud.service; 


import java.util.HashMap; 


import java.util.List; 


import net.sf.json.JSONObject; 


import com.cloud.strategy.Sendstrategy; 


import com.cloud.strategy.StrategyContext; 


import com.cloud.util.C3P0Util; 


import com.cloud.util.Log; 


import com.cloud.util.PropertiesReader; 


import com.cloud.util.ThreadStateFlag; 


public class CommonThread extends Thread { 


private String sendWay; 

private ThreadStateFlag threadStateFlag; 
private String datatype; 

private String sendFlag; 

private String appType; 

private String sendPath; 

private String baseQuerySql; 

private String baseUpdateSql; 
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public CommonThread(String sendWay, ThreadStateFlag threadStateFlag, 
String datatype,String sendFlag, 
String appType,String sendPath) { 
super(); 
this.threadStateFlag = threadStateFlag; 
this.datatype = datatype; 
this.sendFlag - sendFlag; 
this.appType = appType; 
this.sendPath = sendPath; 
this.sendWay = PropertiesReader.getProp (sendWay) ; 
this.baseQuerySql = PropertiesReader.getProp ("baseQuerySql_" + 
sendWay) ; 
this.baseUpdateSql = PropertiesReader.getProp ("baseUpdateSql_" + 
sendWay) ; 
} 
public void run(){ 
synchronized (threadStateFlag) { 
List<HashMap<String, String>> unSendList = null; 
JSONObject data = null; 
String tableName = "sports"; 
String querySql = String.format (baseQuerySql,tableName, 
sendFlag,"%" + appType + "%"); 
unSendList = C3P0Util.getData (querySql); 
if (unSendList.size()> 0){ 
for (HashMap<String, String> map:unSendList) { 
data = new JSONObject (); 
data.put ("appType", appType) ; 
data.put ("dataType",map.get ("dataType")); 
data.put ("collectDate",map.get ("receiveTime")); 
data.put ("phone",map.get ("phone") ) ; 
data.put ("dataValue",map.get ("dataValue")); 
data.put ("deviceID",map.get ("deviceID")); 
data.put ("company",map.get ("Company") ) ; 
data.put ("pname",map.get ("pname")); 
data.put ("teamName",map.get ("teamName") ) ; 


if(StrategyContext.sendData (data.toString(), sendPath, 
appType, sendWay) ) { 
// 数据 发 送 成 功 , 进行 发 送 标识 的 更 新 
String updateSql = String. format (baseUpdateSql, 
tableName, sendFlag,map.get ("id")); 
boolean updateSuccess = C3POUtil.executeUpdate 
(updateSql); 
System.out.println (updateSql); 
if(!updateSuccess) { 
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(2) 数据 发 送 策略 接口 SendStrategy， 定 义 数据 转发 方法 以 及 参数 ， 具 体 实现 由 其 
子 类 完成 。 代 码 实现 如 下 : 


(3) 策略 发 送 工厂 类 StrategyContext, 主要 功能 是 通过 不 同 的 发 送 方式 send Way 来 
实例 化 不 同 的 发 送 策略 。 发 送 策略 包括 mqStrategy 和 postStrategy 两 种 方式 。 代 码 实现 
如 下 : 
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if ("MqStrategy".equals (sendWay) ) { 
Log.debug ("MqStrategy 方式 发 送 数据 ") ; 
return mqStrategy.send (data, url, appType) ; 

} else if ("PostStrategy".equals (sendWay) ) { 
Log.debug ("PostStrategy 方式 发 送 数据 ") ; 
return postStrategy.send (data, url, appType) ; 

} else { 
Log. info (" 没 有 指定 发 送 方式 !!!sendway:" + sendWay); 
return false; 


} 
3.3.6 ”采用 Post 策略 模式 进行 数据 发 送 


采用 Post 方式 发 送 数据 内 容 , 主要 功能 是 调用 主流 的 中 间 件 Apache HttpClient, 并 
设置 网 络 传输 超时 时 间 、 网 络 响应 超时 时 间 等 参数 ， 向 指定 服务 路 径 发 送 json 字符 串 
数据 。 代 码 实现 如 下 : 


package com.cloud.strategy; 
import org.apache.commons.httpclient.HttpClient; 
import org.apache.commons.httpclient.methods.PostMethod; 
import org.apache.commons.httpclient.params.HttpMethodParams; 
import com.cloud.util.Log; 
public class PostStrategy implements SendStrategy ( 

GOverride 


úl 


public boolean send(String data,String url,String appType) { 
HttpClient client = new HttpClient (); 
PostMethod post = new PostMethod (url); 
boolean isSuccess = false; 
try { 
System.out.println (url); 
post .getParams () .setParameter ( 
HttpMethodParams.HTTP CONTENT CHARSET, "UTF-8"); 
post.addParameter ("data",data); 
Log.debug (this.getClass() .getSimpleName()+ " begin send 


datas 
Log.debug (this.getClass () .getSimpleName ()+ " send data:" + 
data); 


// 设置 连接 超时 时 间 

client.getHttpConnectionManager () .getParams () . 
setConnectionTimeout (10000); 

// 设置 响应 超时 时 间 

client.getHttpConnectionManager () .getParams () . 
setSoTimeout (15000); 

int returnFlag = client.executeMethod (post); 
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if(returnFlag == 200) 1 
isSuccess = true; 


} 
Log.info(this.getClass () .getSimpleName () 
+ " success receive form post:" 
+ post .getStatusLine () .toString()+ ",returnFlag=" 
+ returnFlag); 
} catch (Exception e){ 
isSuccess = false; 
Log.error (this.getClass () .getSimpleName () 
+ " fail receive form post:" + e.getMessage ()); 


} finally { 
if(post != null){ 
post.releaseConnection (); 
Log.info(this.getClass () .getSimpleName () 
+ " post.releaseConnection()" + "is coming"); 


} 


} 
return isSuccess; 


} 
3.3.7 采用 ActiveMQ 策略 模式 进行 数据 发 送 


采用 ActiveMQ 方式 发 送 数据 内 容 ， 调 用 MQ 的 发 送 接口 发 送 消息 给 指定 队列 。 
ActiveMg 的 配置 以 及 实现 过 程 如 下 : 
(1) 在 SysConf.properties 中 配置 activemq 发 送 消息 队列 。 
jms.url-tcp://localhost:61616 
jms.cachSessionNum-50 
jms.queue.AppA-QueueSport 
(2) EA jar € activemq-all-5.9.1 jar. 
(3) 在 网 上 下 载 apache-activemg-5.10.0 服务 端 压 缩 包 到 本 地 磁盘 D : \apache- 
activemg-5.10.0 下 面 。 
(4) 在 本 地 的 系统 中 配置 activemgq 的 环境 变量 。 
e 在 系统 变量 中 添加 : 变量 名 “ACTIVEMQ_HOME”, 变量 值 “D: \apache-activemg- 
5.10.0\apache-activemq-5.10.0”。 
e 在 系统 变量 中 添加 : 变量 名 “PATH”， 变 量 值 “%ACTIVEMQ_HOME%\bin”。 
e 此 时 activemq 就 可 以 加 载 Java 的 环境 变量 JAVA. HOME. 
(5) 在 CMD 命令 中 启动 activemq， 输 入 activemq start， 若 有 “ActiveMQ WebConsole 
available at http://127.0.0.1:8161/” 提 示 ， 则 说 明 activemg 服务 启动 成 功 。 
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(6) 编写 发 送 数据 包 类 的 步骤 如 下 : 

O 新 创建 一 个 连接 activemq 服务 的 工厂 类 ActiveMQConnectionFactory， 并 设置 
mq 的 服务 地 址 。 

© 新 建 工厂 类 CachingConnectionFactory, 将 四 新 建 的 ActiveMQConnectionFactory 
类 传 入 。 

® 新 建 JmsTemplate 类 ， 调 用 org.springframework.jms.core.JmsTemplate 来 设置 发 
送 方式 是 P2P 的 队列 模式 还 是 订阅 分 发 模式 的 消息 主题 。 

O 设置 发 送 队 列 的 名 称 queueName=QueueSport。 

© 调用 jmsTemplate.send 发 送 数据 到 queueName 中 。 

CD MQ 消息 策略 类 ， 主 要 功能 是 调用 封装 的 消息 发 布 接口 ， 发 送 业 务 参数 到 消息 
队列 中 。 代 码 实现 如 下 : 


package com.cloud.strategy; 
import com.cloud.util.PropertiesReader; 
public class MqStrategy implements SendStrategy { 
static ObsDataMsgPublisher publisher = null; 
static { 
publisher = ObsDataMsgPublisher.getInstance (); 
} 
@override 
public boolean send (String data, String url, String appType) { 
if (publisher == null) { 
return false; 


} 
String queueName = PropertiesReader.getProp ("jms.queue." + 


appType); 
System.out.println ("queueName="+queueName); 
if (queueName == null || "".equals (queueName)) { 


return false; 


} 
return publisher.sendByQuene (data, queueName); 


} 
(8) MQ 消息 发 布 接口 MessagePublisher， 定 义 发 送 消息 到 消息 队列 的 方法 。 代 码 
实现 如 下 : 


package com.cloud.strategy; 

import org.apache.log4j.Logger; 

public interface MessagePublisher { 
public static Logger log = Logger.getLogger (MessagePublisher.class) ; 
public boolean sendByQuene (String msg,String queneName) ; 
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(9) MQ 消息 发 送 实现 类 ObsDataMsgPublisher， 主 要 功能 是 连接 activeMq 服务 器 ， 
发 送 消息 到 指定 的 消息 队列 。 代 码 实现 如 下 : 


package com.cloud.strategy; 
import java.net.URLEncoder; 
import javax.jms.DeliveryMode; 
import javax.jms.JMSException; 
import javax.jms.Message; 
import javax.jms.Session; 
import org.apache.activemq.ActiveMQConnectionFactory; 
import org.springframework.jms.JmsException; 
import org.springframework.jms.connection.CachingConnectionFactory; 
import org.springframework.jms.core.JmsTemplate; 
import org.springframework.jms.core.MessageCreator; 
import com.cloud.util.PropertiesReader; 
public class ObsDataMsgPublisher implements MessagePublisher ( 
private static ObsDataMsgPublisher instance - null; 
private static JmsTemplate jmsTemplate; 
private ObsDataMsgPublisher () { 
Ve 
public static synchronized ObsDataMsgPublisher getInstance() { 
if( instance == null) { 
instance = new ObsDataMsgPublisher (); 
ActiveMQConnectionFactory mqFactory = new 
ActiveMQConnection Factory (); 
mqFactory.setBrokerURL (PropertiesReader.getProp 
(mms cure) 
CachingConnectionFactory cachFactory = new 
CachingConnection Factory (mgFactory); 
cachFactory.setSessionCacheSize (Integer.parseInt 
(PropertiesReader.getProp ("jms.cachSessionNum"))); 
jmsTemplate = new JmsTemplate (cachFactory); 


jmsTemplate.setPubSubDomain (false); // p2p 方式 
jmsTemplate.setDeliveryMode (DeliveryMode.PERSISTENT); 
// 采用 持久 化 方式 


} 
return instance; 
} 
foverride 
public synchronized boolean sendByQuene (final String msg,final 
String queueName) { 
boolean ret = false; 
try { 
log. info (this.getClass() .getSimpleName ()+ "--HER AGE IMS 消 
息 , queueName:" + queueName) ; 
log.info (this.getClass () .getSimpleName ()+ "--msg:" + msg); 
jmsTemplate.setDefaultDestinationName (queueName) ; 


sc AA 


. 
KUERMZESMARK" 


jmsTemplate.send(new MessageCreator () { 
@override 
public Message createMessage (Session session) 
throws JMSException { 
my f 
return session.createTextMessage (URLEncoder. 
encode (msg, "utf-8")); 
} catch (Exception e){ 
e.printStackTrace (); 
} 
return null; 


y; 

HEE = Crue; 

log.info (this.getClass() .getSimpleName () + "--JMS 消息 发 送 成 功 ") ; 
} catch (JmsException e) { 

e.printStackTrace (); 


} 
return ret; 


} 
(10) 测试 验证 发 送 数据 的 结果 如 图 3-5 一 图 3-7 所 示 。 


RhctVeu 


Home | Queues | Topics | Subscribers | Connections | Network | Scheduled | Send 


Queue Name Create 

Queues 
E en Da Views Operations 
Quewesport 1000 5 o ^ 
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Headers 
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Correlation 10 

Sequence 
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Priority 4 

Redelvered false 


Reply To 


Timestamp 
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图 3-7 消息 数据 详情 
3.4 项 目 小 结 


DM 深入 了 解 观察 者 模式 的 架构 设计 和 使 用 场景 : 观察 者 模式 将 观察 对 象 与 主题 (也 
叫 作 被 观察 者 对 象 ) 进行 了 分 离 , 但 是 主题 必须 加 入 观察 对 象 的 集合 。 当 主题 内 部 状态 
发 生变 化 时 ， 就 可 以 及 时 地 通知 观察 者 。 这 样 ， 每 个 对 象 都 做 自己 的 事情 ， 职 责 分 明 ， 
提高 了 程序 的 复 用 性 和 可 维护 性 。 结 合 本 章 内 容 ， 由 于 一 条 智能 终端 运动 数据 被 多 个 
app 进行 共享 ， 那 些 智 能 终端 运动 数据 就 是 主题 ， 一 个 app 对 应 的 就 是 一 个 观察 者 。 当 
一 条 数据 接收 时 ， 就 会 创建 相应 的 主题 ， 注 册 观 察 者 并 通知 观察 者 来 进行 数据 转发 。 

(2) 多 线程 同步 锁 的 设计 方法 : 在 本 章 中 数据 发 送 时 ， 采 用 了 多 线程 的 方式 。 为 了 
避免 不 必要 的 线程 重复 启动 ， 我 们 使 用 了 一 个 静态 的 map 来 存放 同步 锁 key 与 线程 的 
映射 关系 。 至 于 同步 锁 key 的 设计 ， 则 根据 业务 设计 成 “appType +"_" + datatype 十 " "十 


sendWay”。 换 言 之 ， 
在 启动 线程 前 ， 根 据 


同一 个 app 类 型 、 同 一 个 数据 类 型 、 同 一 种 发 送 方式 为 一 种 业务 。 
同步 锁 key 去 map 中 取出 对 应 的 线程 对 象 。 若 线程 对 象 不 存在 或 


者 已 死 ， 则 开启 新 线程 进行 数据 处 理 ; 反之 ， 则 不 会 开启 新 的 线程 。 这 样 就 保证 了 一 种 


业务 对 应 一 个 线程 ， 


同样 的 业务 不 会 启动 多 个 线程 ， 避 免 了 程序 的 性 能 消耗 。 
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架构 之 道 分 享 之 四 : 孙子 兵法 的 《行军 篇 》 论 述 了 在 山地 和 平原 等 地 区 作战 要 领 
和 观察 判断 敌情 的 方法 。 项 目 规划 不 仅 要 考虑 团队 的 技术 实力 ， 更 要 考察 开发 周期 和 
应 用 场景 ， 否 则 后 续 很 多 规划 很 难 实施 。 


* 掌握 数据 库 的 弹性 设计 和 通用 接口 开发 
* 掌握 基于 Spring MVC 和 Spring Boot 的 存储 微服 务 构建 方法 
* 掌握 状态 模式 、 策 略 模式 、 责 任 链 模式 的 技术 原理 和 实战 方法 


4.1 核心 需求 分 析 和 优秀 解决 方案 


高 可 扩展 海量 存储 服务 引擎 是 为 建立 高 可 扩展 的 物 联网 数据 资源 池 而 构建 ,包括 物 
联网 的 移动 设备 和 体检 设备 的 数据 接 入 ， 以 及 和 专业 机 构 对 接 的 物 联 网 大 数据 服务 等 。 
随 着 民众 服务 需求 的 变化 ， 物 联网 设备 的 广泛 采纳 ， 新 的 物 联网 服务 模式 引入 ， 以 及 体 
检 和 医疗 生态 产业 链 的 不 断 加 入 ， 必 须 建 立 统一 和 标准 化 的 海量 存储 和 并 行 计 算 服 务 ， 
才 可 以 实现 不 同体 检 机 构 、 服 务 机 构 和 物 联网 公司 之 间 数 据 互联 互通 。 在 大 数据 时 代 ， 
物 联网 数据 的 统一 接 入 、 海 量 存储 、 兼 容 不 同 数据 的 开放 能 力 已 经 是 大 势 所 趋 。 海量 存 
储 和 并 行 计算 服务 通过 汇聚 不 同 设备 和 服务 机 构 的 数据 , 跟踪 和 预测 健康 变化 , 并 基于 
医学 知识 库 和 机 器 学 习 的 智能 分 析 , 实现 辅助 决策 支持 , 对 患者 进行 个 性 化 的 慢 病 防 控 
和 干预 ， 为 专业 医疗 机 构 服 务 和 为 患者 提供 智能 分 析 辅 助 。 

如 果 构 建 一 个 物 联网 大 数据 平台 的 海量 存储 和 并 行 计算 服务 ， 需 要 对 来 自 多 源 
异 构 〈 时 间 序 列 ) 数据 进行 高 效 处 理 。 其 主要 特征 包括 平台 的 开放 性 、 通 用 性 、 模 
块 化 、 灵 活性 和 可 扩展 性 等 。 需 要 实现 多 模 态 、 不 同时 间 颗 粒度 的 物 联网 大 数据 的 
统一 高 效 和 海量 存储 ， 并 提供 易于 扩展 的 物 联网 大 数据 的 离线 计算 和 批 处 理 架构 。 
本 章 介绍 基于 MySQL 的 高 可 扩展 大 数据 存储 与 数据 管理 方案 , 适用 于 构建 百 万 级 用 
户 和 TB 级 别 数据 量 的 平台 和 应 用 。 在 第 5 章 介 绍 基于 MongoDB 的 高 并 发 采集 大 数 
据 处 理 ， 适 用 于 构建 千 万 级 用 户 和 PB 级 别 数据 量 的 平台 和 应 用 。 在 第 6 章 介 绍 基于 
Hadoop 集群 的 高 可 靠 大 数据 处 理 ， 适 用 于 构建 亿 级 用 户 和 EB 级 别 以 上 数据 量 的 平 
台 和 应 用 。 
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42 ”服务 引擎 的 技术 架构 设计 


(1) 海量 存储 和 并 行 计算 服务 引擎 包括 5 个 核心 模块 ， 如 图 4-1 所 示 ， 每 一 个 模块 
要 考虑 可 扩展 性 和 高 性 能 两 个 关键 因素 ， 具 体 说 明 如 下 。 


大 数据 高 可 扩展 海量 存储 服务 引擎 


er DE 


图 4-1 大 数据 高 可 扩展 存储 服务 模块 化 设计 


O 核心 模块 一 :基于 Spring MVC 和 Spring Boot 微服 务 两 种 方式 ， 构 建 采集 服务 
框架 ， 借 助 maven 强大 仓库 集成 不 同 中 间 件 。 

O 核心 模块 二 : 通过 统一 的 对 外 数据 接收 接口 , 接收 物 联网 智能 终端 运动 数据 等 ， 
实现 对 物 联网 移动 设备 大 数据 的 统一 、 安 全 、 可 靠 接 入 。 

@ 核心 模块 三 ， 提 供 对 物 联网 智能 终端 运动 大 数据 分 状态 和 分 策略 处 理 ， 分 状态 
是 为 了 实现 业务 的 可 扩展 ， 目 前 包括 接收 和 存储 状态 ， 后续 可 以 灵活 扩展 。 分 策略 是 考 
虑 不 同 厂家 采用 不 同 的 策略 处 理 方式 ， 后 续 可 以 灵活 扩展 。 

O 核心 模块 四 : 提供 对 物 联 网 智能 终端 运动 大 数据 分 职责 处 理 ， 分 职责 是 为 了 实 
现 数 据 包 业务 的 可 扩展 ， 目 前 智能 终端 运动 数据 包括 1 号 和 3 号 简要 包 、2 号 详细 包 ， 
后 续 可 以 增加 其 他 数据 类 型 数据 包 。 

O 核心 模块 五 ， 提 供 对 物 联网 智能 终端 运动 大 数据 的 统一 存储 ， 保 证 代码 的 可 重 
用 和 可 扩展 性 ， 为 后 续 持 续 演进 提供 一 站 式 处 理 。 

(2) 构建 Spring MVC 版 本 的 BD_StorageServer Maven 服务 工程 框架 ， 如 图 4-2 
所 示 。 
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I8 Package Explorer 22 

a | BD StorageServer Maven 
4 jf src/mainfjava — 
4 5B com.cloudstorage 
JB base.Domain 
B controller 
Bi dao 
B daclmpl 
SB pattern 

d chain 

E factory 

B state 

d strategy 
WB service 
S servicelmpl 
B util 

$9 sre/main/resources 

(9 sreftest/java 

(E sreftest/resources 

BA Maven Dependencies 

Bi JRE System Library [JavaSE-1 
4 fp src 


4 > main 
4 > webapp 
E WEB-INF 
© test 
© target 
加 pomami 


图 4-2 高 可 扩展 存储 服务 Spring MVC 版 本 工程 


(3) 构建 Spring Boot 版 本 的 BD_StorageServer Boot 服务 工程 框架 ， 如 图 4-3 所 示 。 


I$ Package Explorer 5% 
4 党 BD_StorageServer_Boot 
4 ¿2 src/main/java 
4 [B com.cloud.storage 
ffi base.Domain 
fl controller 
8B dao 
B daolmpl 
iB hbase 
DD HbaseConfigjava 
由 pattern 
页 chain 
& factory 
JB state 
strategy 
出 service 
4f servicelmpl 
Æ springboot 
E util 
4 (® src/main/resources 


` 


& com 
application.properties 
(2 sreftest/java 
@ src/test/resources 
> BÀ JRE System Library [JavaSE-1.7] 
A Maven Dependencies 
© sre 
> & target 
5 pomxml 
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4.3 核心 技术 讲解 及 模块 化 实现 


4.3.1 Spring MVC 的 工作 原理 及 执行 流程 


(1) 在 web.xml 文件 中 定义 前 端 控制 器 DispatcherServlet 来 拦截 用 户 请 求 。Web 应 
是 基于 请 求 /相应 架构 的 应 用 ，MVC Web 框架 需要 在 web.xml 中 配置 核心 Servlet 或 
ilter， 才 可 以 让 该 框架 介入 Web 应 用 中 。 例 如 ，Spring MVC 应 用 的 web.xml 文件 中 增 
如 下 配置 片段 : 

<!--JEX Spring MVC 的 前 端 控制 器 --> 


<servlet> 
<servlet-name>springmvc</servlet-name> 


m 


=> 


<servlet-class> 
org.springframework.web.servlet.DispatcherServlet 

</servlet-class> 

<init-param> 
<param-name>contextConfigLocation</param-name> 
<param-value>/WEB-INF/springmvc-config.xml</param-value> 

</init-param> 

<load-on-startup>1</load-on-startup> 

</servlet> 


<!--ik Spring MVC 的 前 端 控 制 器 拦截 所 有 请 求 --> 
<servlet-mapping> 
<servlet-name>springmvc</servlet-name> 
<url-pattern>/</url-pattern> 
</servlet-mapping> 
(2) 定义 处 理 用 户 请 求 的 Handle 类 ， 可 以 实现 Controller 接口 或 使 用 @Controller 
注释 。 因 为 该 DispatcherServlet 就 是 MVC 中 前 端 控 制 器 ， 负 责 接收 请 求 ， 并 将 请 求 分 
发 给 对 应 的 Handle， 即 实现 Controller 接口 的 Java 类 ， 而 该 Java 类 负责 调用 后 台 业 务 
逻辑 代码 来 处 理 请 求 。 
(3) 在 Spring MVC 框架 中 ,控制 器 由 两 部 分 组 成 ， 即 拦截 所 用 用 户 请 求 和 处 理 请 
求 的 前 端 控制 器 DispatcherServlet， 以 及 实际 的 业务 控制 层 Controller. 
(4) Handle 映射 到 Controller 的 方法 。 在 Spring2.5 之 后 ， 推 荐 使 用 注解 来 配置 
Handle: 


@Controller 

public class HelloController{ 

@RequestMapping (value="/hello") 
public ModelAndView hello() { 
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} 


(5) 创建 视图 资源 。Handle 处 理 用 户 请 求 结束 后 ， 通 常会 返回 一 个 ModelAndView 
对 象 , 该 对 象 中 应 该 包含 返回 的 视图 名 或 视图 名 和 模型 , 这 个 视图 名 就 代表 需要 显示 的 
物理 视图 资源 。 如 果 Handle 需要 把 一 些 数据 传 给 视图 资源 ， 则 可 以 通过 模型 对 象 。 

(6) Spring MVC 执行 的 具体 流程 。 

O 用 户 向 服务 器 发 送 请 求 ， 请 求 被 前 端 控制 器 DispatcherServlet 截获 。 

(2) DispatcherServlet 对 请 求 URL 进行 解析 ， 得 到 URI。 调 用 HandleMapping 获得 
该 Handle 配置 的 所 有 相关 的 对 象 。 

(8) DispatcherServlet 根据 获得 的 Handle， 选 择 一 个 合适 的 HandlerAdapter 。 
HandleAdapter 会 被 用 于 处 理 多 种 Handle, 调用 Handle 实际 处 理 请 求 的 方法 。 提取 请 求 
中 的 模型 数据 ， 开 始 执行 Handle 对 应 的 Controller。 

(à) Handle 执行 完成 后 ， 向 DispatcherServlet 返回 一 个 ModelAndView 对 象 ， 
ModelAndView 对 象 中 应 该 包含 视图 名 。 

© 根据 返回 的 ModelAndView X1, 选择 一 个 合适 的 ViewResolver (视图 解析 器 ) 
返回 给 DispatcherServlet。 

© ViewResolver 结合 Model 和 View 来 泻 染 视图 ， 将 视图 泻 染 结 果 返 回 给 客户 端 。 


4.3.2 Spring MVC Web 服务 构建 


(1) 配置 项 目的 pom.xml 文件 ， 用 于 描述 项 目 信息 以 及 定义 本 项 目 中 需要 用 到 的 
依赖 ， 配 置 如 下 : 


<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:// 
www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven. 
apache.org/xsd/maven-4.0.0.xsd"> 
<modelVersion>4.0.0</modelVersion> 
<groupId>com.cloud.storage</groupId> 
<artifactId>BD StorageServer Maven</artifactId> 
<version>0.0.1-SNAPSHOT</version> 
<packaging>war</packaging> 
<properties> 
<webVersion>3.1</webVersion> 
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> 
<spring.version>4.3.7.RELEASE</spring.version> 
<jackson.version>2.5</jackson.version> 
<jdk.version>1.7</jdk.version> 
</properties> 
<build> 
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XgroupId»net.sf.json-lib«/groupId» 
<artifactId>json-lib</artifactId> 
<version>2.3</version> 
<classifier>jdk15</classifier> 

</dependency> 

<dependency> 
<groupId>com.alibaba</groupId> 
<artifactId>fastjson</artifactId> 
<version>1.2.17</version> 

</dependency> 

<dependency> 
XgroupId»org.slf4j«/groupId» 
«artifactId»s1f4j-10g4j12«/artifactId» 
«version»1.6.6«/version» 

</dependency> 

<dependency> 
<groupId>1log4j</groupId> 
<artifactId>log4j</artifactId> 
<version>1.2.17</version> 

</dependency> 

</dependencies> 
</project> 


(2) Web 项 目 核心 配置 文件 web.xml, HF Spring 容器 、Spring MVC 前 端 控制 器 、 
编码 过 滤器 的 加 载 ， 它 是 中 央 控 制 器 。 配 置 如 下 : 


<?xml version="1.0" encoding="UTF-8"?> 
<web-app xmlns:xsi="http://www.w3.0rg/2001/XMLSchema-instance" xmlns=" 
http://java.sun.com/xml/ns/javaee"xmlns:web-"http://java.sun.com/ 
xml/ns/javaee/web-app 2 5.xsd"xsi:schemaLocation-"http://java.sun. 
com/xml/ns/javaee http://java.sun.com/xml/ns/javaee/web-app 2 5.xsd" 
id-"WebApp ID" version= "2.5"> 
<display-name>storage</display-name> 
<context-param> 
<param-name>webAppRootKey</param-name> 
<param-value>webapp.storage.root</param-value> 
</context-param> 
<context-param> 
<param-name>1log4jConfigLocation</param-name> 
<param-value>classpath:com/cloud/storage/Log/log4j.properties</param- 
value> 
</context-param> 
<context-param> 
<param-name>log4jRefreshInterval</param-name> 
<param-value>60000</param-value> 
</context-param> 
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<context-param> 
<param-name>contextConfigLocation</param-name> 
<param-value>WEB-INF/spring/app-config.xml</param-value> 
</context-param> 
<filter> 
<filter-name>CharacterEncodingFilter</filter-name> 
<filter-class>org.springframework.web.filter.CharacterEncodingFilter 
</filter-class> 
<init-param> 
<param-name>encoding</param-name> 
<param-value>UTF-8</param-value> 
</init-param> 
<init-param> 
<param-name>forceEncoding</param-name> 
<param-value>true</param-value> 
</init-param> 
</filter> 
<filter-mapping> 
<filter-name>CharacterEncodingFilter</filter-name> 
<url-pattern>/*</url-pattern> 
</filter-mapping> 
<listener> 
<listener-class>org.springframework.web.context.ContextLoaderListener 
</listener-class> 
</listener> 
<listener> 
<listener-class>org.springframework.web.util.Log4jConfigListener 
</listener-class> 
</listener> 
<servlet> 
<servlet-name>springmvc</servlet-name> 
<servlet-class>org.springframework.web.servlet.DispatcherServlet 
</servlet-class> 
<init-param> 
<param-name>contextConfigLocation</param-name> 
<param-value>WEB-INF/spring/mvc-config.xml</param-value> 
</init-param> 
<load-on-startup>1</load-on-startup> 
</servlet> 
<servlet-mapping> 
<servlet-name>springmvc</servlet-name> 
<url-pattern>*.json</url-pattern> 
<url-pattern>/service/*</url-pattern> 
<url-pattern>/</url-pattern> 
</servlet-mapping> 
</web-app> 
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(3) Spring 的 核心 配置 文件 app-configxml， 主 要 用 于 扫描 项 目 注解 、 初 始 化 
jdbcTemplate， 加 载 业务 配置 文件 、 加 载 mongodb 配置 xm 文件 (第 5 章 用 到 )、 加 载 
hbase 配置 xml 文件 〈 第 6 章 用 到 ) 等 。 配置 如 下 : 


<?xml version-"1.0" encoding="UTF-8"?> 
<beans xmlns="http://www.springframework.org/schema/beans" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xmlns:context="http: //www.springframework.org/schema/context" 
xmlns:tx-"http://www.springframework.org/schema/tx" 
xmlns:aop-"http://www.springframework.org/schema/aop" 
xsi:schemaLocation-" 
http://www.springframework.org/schema/beans 
http://www.springframework.org/schema/beans/spring-beans-3.2.xsd 
http://www.springframework.org/schema/context 
http: //www.springframework.org/schema/context/spring-context- 3.2.xsd 
http: //www.springframework.org/schema/tx 
http: //www.springframework.org/schema/tx/spring-tx-3.2.xsd 
http://www.springframework.org/schema/aop 
http://www.springframework.org/schema/aop/spring-aop-3.2.xsd"» 
<context:annotation-config /» 
<context:component-scan base-package="com.cloud.storage"> 
<context:exclude-filter type-"annotation" expression-"org. 
springframe work.stereotype.Controller"/» 
</context : component-scan> 
<bean id="propertyConfigurer" class="org.springframework.beans. 
factory.config.PropertyPlaceholderConfigurer"> 
<property name="locations"> 
<list> 
<value>classpath:com/cloud/storage/Config/database. 
properties</value> 
<value>classpath:com/cloud/storage/Config/mongodb. 
properties</value> 
<value>classpath:com/cloud/storage/Config/hbase. 
properties</value> 
</list> 
</property> 
</bean> 
<bean id-"jdbcTemplate" class="org.springframework.jdbc.core.JdbcTemplate"> 
</bean> 
«import resource-"../mongodb.xml" /> 
<!-- hbase 配置 文件 --> 
<import resource="../hbase.xml" /> 
</beans> 
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(4) Spring MVC 的 配置 文件 mvc-config xml， 主 要 实现 controller 层 扫描 、 视 图 解 
析 器 、 异 常 拦截 器 、 文 件 上 传 等 功能 。 配 置 如 下 : 


<?xml version="1.0" encoding="UTF-8"?> 
<beans xmlns-"http://www.springframework.org/schema/beans" 
xmlns:xsi-"http://www.w3.org/2001/XMLSchema-instance" xmlns:mvc= 
"http: //www.springframework.org/schema/mvc" 
xmlns:context="http: //www.springframework.org/schema/context" 
xsi:schemaLocation=" 
http: //www.springframework.org/schema/beans http://www. 
springframework.org/schema/beans/spring-beans-3.2.xsd 
http: //www.springframework.org/schema/mvc http://www. 
springframework.org/schema/mvc/spring-mvc-3.2.xsd 
http: //www.springframework.org/schema/context http://www. 
springframework.org/schema/context/spring-context-3.2.xsd"> 
<!-- 1. scan all package --> 
<context : component-scan base-package="com.cloud.storage"> 
<context:include-filter type="annotation" 
expression="org.springframework.stereotype.Controller" /> 
<context:exclude-filter type="annotation" 
expression="org.springframework.stereotype.Service" /> 
</context:component-scan> 
<!-- 2. import servlet view resolver --> 
<bean 
class="org.springframework.web.servlet.view. 
InternalResourceView Resolver"> 
<property name="order" value="2" /> 
<property name="viewClass" 
value-"org.springframework.web.servlet.view.JstlView" /> 
<property name="prefix" value="/jsp/" /> 
<property name="suffix" value=".jsp" /> 
</bean> 
<!-- 3. support file upload MultipartResolver --> 
<mvc:default-servlet-handler /> 
<bean id="multipartResolver" 
class="org.springframework.web.multipart.commons. 
CommonsMultipart Resolver" /> 
<bean 
class="org.springframework.web.servlet.handler. 
SimpleMapping ExceptionResolver"> 
<property name="exceptionMappings"> 
<props> 
<prop key="org.springframework.dao.DataAccessException"> 
dataAccessFailure</prop> 
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<prop key="org. springframework.transaction.TransactionException"> 


dataAccessFailure</prop> 
</props> 
</property> 
</bean> 
<!-- 4. support annotation --> 
<mvc:annotation-driven /> 
</beans> 


(5) MySQL 数据 库 配 置 文件 ， 用 于 指定 数据 库 路 径 、 账 号 、 连 接 池 相关 参数 等 信 


息 。 配 置 如 下 : 


jdbc.driverClassName-com.mysql.jdbc.Driver 
jdbc.url=jdbc\ :mysql\://localhost\:3306/storage?useUnicode\= 
truescharacterEncoding\=UTF-8 
jdbc.username=root 
jdbc.password=root 
jdbc.maxPoolSize=100 
jdbc.minPoolSize=40 
jdbc.initialPoolSize-20 
jdbc.maxIdleTime-600 
jdbc.checkoutTimeout-200 
jdbc.acquireIncrement-3 
jdbc.maxStatements-500 
jdbc.automaticTestTable-Test 
jdbc.idleConnectionTestPeriod-120 


4.3.3 Spring Boot Web 微服 务 构建 


COD 项 目的 依赖 管理 文件 pom.xml， 用 于 指定 Spring Boot 的 版 本 以 及 项 目 中 需要 


用 到 的 相关 依赖 。 配 置 如 下 : 


<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:// 


www.w3.0r9/2001/XMLSchema-instance" 


xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven. 


apache.org/xsd/maven-4.0.0.xsd"> 

<modelVersion>4.0.0</modelVersion> 
<groupId>com.cloud.bigdata</groupId> 
<artifactId>BD StorageServer B</artifactId> 
<version>0.0.1-SNAPSHOT</version> 
<packaging>war</packaging> 
<properties> 

<webVersion>3.1</webVersion> 
</properties> 
<build> 

<plugins> 
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</dependency> 

<dependency> 
<groupId>commons-httpclient</groupId> 
<artifactId>commons-httpclient</artifactId> 
<version>3.1</version> 

</dependency> 

RUSS Wesel ==> 

<dependency> 
<groupId>c3p0</groupId> 
<artifactId>c3p0</artifactId> 
<version>0.9.1.2</version> 

</dependency> 

<dependency> 
<groupId>org.apache.httpcomponents</groupId> 
<artifactId>httpclient</artifactId> 
<version>4.5.5</version> 

</dependency> 

<!-- 添加 数据 库 驱动 --> 

<dependency> 
<groupId>mysql</groupId> 
<artifactId>mysql-connector-java</artifactId> 

</dependency> 

<!-- Spring Boot 集成 JdbcTemplate --> 

<dependency> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-starter-jdbc</artifactId> 

</dependency> 

<!-- Spring Boot 集成 mongodb --> 

<dependency> 
<groupId>org.springframework.boot</groupId> 
<artifactId>spring-boot-starter-data-mongodb</artifactId> 

</dependency> 

<dependency> 
<groupId>org.springframework.data</groupId> 
<artifactId>spring-data-mongodb</artifactId> 
<version>1.10.6.RELEASE</version> 

</dependency> 

<!-- hadoop 相关 jar 包 --> 

<!-- hbase 相关 --> 

<dependency> 
<groupId>org.apache.hbase</groupId> 
<artifactId>hbase-client</artifactId> 
<version>0.98.13-hadoop2</version> 

</dependency> 

<dependency> 
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<groupId>org.springframework.data</groupId> 
<artifactId>spring-data-hadoop</artifactId> 
<version>2.0.2.RELEASE</version> 
</dependency> 
</dependencies> 
</project> 


(2) 配置 Spring Boot 的 核心 配置 文件 application properties， 主 要 用 于 指定 项 目的 


、 项 目 应 用 名 称 、mysql 数据 源 配置 等 。 配 置 如 下 : 


server.address=127.0.0.1 

server .port=8083 

server.context-path:/boot storageServer 

HE 设置 数据 源 HHHH 

spring.datasource.url-jdbc:mysql://localhost:3306/storage?autoReconnect- 
true&useUnicode-true&characterEncoding-utf-8 

spring.datasource.username-root 

spring.datasource.password-root 

spring.datasource.driver-class-name=com.mysql.jdbc.Driver 

+ 配置 初始 化 大 小 、 最 小 、 最 大 

spring.datasource.initialSize=5 

spring.datasource.minIdle=5 

spring.datasource.maxActive=20 

+ 配置 获取 连接 等 待 超 时 的 时 间 


spring.datasource.maxWait=6000 


(3) Spring Boot 服务 启动 StorageBootStarter 类 ， 主 要 用 于 扫描 项 目 中 的 所 有 注解 


到 spring 容器 中 并 启动 spring boot 服务 。 代 码 实现 如 下 : 


package com.cloud.storage.Spring Boot; 

import org.springframework.boot.SpringApplication; 

import org.springframework.boot.autoconfigure.Spring BootApplication; 
import org.springframework.context.annotation.ComponentScan; 

/** 

* Spring Boot 的 启动 类 

* 


* (author changyaobin 

* 

E 

Spring BootApplication 

@ComponentScan (basePackages = { "com.cloud.storage" )) 

public class StorageBootStarter { 

public static void main(String[] args) { 
SpringApplication.run (StorageBootStarter.class,args); 
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43.4 统一 对 外 数据 接收 接口 及 通用 类 


(1) CommonRestfulController 类 的 businessDataReceive 接口 。 

数据 接收 接口 businessDataReceive 对 接 BD_DispatchServer 转发 服务 数据 发 送 接 
的 数据 ， 收 到 的 jsonData 字符 串 数 据 需要 转换 为 JSONObject 对 象 ， 之 后 再 进行 数据 格 
式 校 验 ， 当 校 验 通过 之 后 可 以 进行 mongodb、mysql、hbase 3 种 存储 方式 的 选择 。 考 虑 
到 服务 的 通用 型 和 可 扩展 性 ， 以 上 3 种 存储 方式 的 开启 与 关闭 通过 配置 文件 进行 了 设 
置 ， 且 同时 只 能 一 种 方式 设置 为 tue。 这 样 ， 可 以 满足 不 同 存储 类 型 的 项 目 需求 。 代 码 
实现 如 下 : 


package com.cloud.storage.controller; 

import java.io.UnsupportedEncodingException; 

import java.util.HashMap; 

import java.util.Map; 

import javax.servlet.http.HttpServletRequest; 

import javax.servlet.http.HttpServletResponse; 

import org.apache.log4j.Logger; 

import org.springframework.beans.factory.annotation.Autowired; 
import org.springframework.stereotype.Controller; 

import org.springframework.ui.ModelMap; 

import org.springframework.web.bind.annotation.PathVariable; 
import org.springframework.web.bind.annotation.RequestMapping; 
import org.springframework.web.bind.annotation.RequestMethod; 
import com.cloud.storage.base.Domain.SportsData; 

import com.cloud.storage.pattern.state.Context; 

import com.cloud.storage.service.SportsDataHbaseService; 
import com.cloud.storage.service.ObservationService; 

import com.cloud.storage.service.PatientService; 

import com.cloud.storage.service.SportsDataService; 

import com.cloud.storage.util.DateUtil; 

import com.cloud.storage.util.JsonUtil; 

import com.cloud.storage.util.PropertiesReader; 

import com.cloud.storage.util.ResponseUtil; 

import com.cloud.storage.util.ValidateUtil; 

import net.sf.json.JSONObject; 

Pede 


* 数据 接收 接口 ,与 Dispatchserver 转发 服务 进行 数据 对 接 


* 


* @author changyaobin 
* 
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(Controller 

public class CommonRestfulController ( 
@Autowired 
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private ObservationService observationService; 
@Autowired 
private SportsDataService sportsDataService; 
@Autowired 
private SportsDataHbaseService sportsDataHbaseService; 
@Autowired 
private PatientService patientService; 
private static Logger log = Logger.getLogger (CommonRestfulController. 
class); 
/** 
* 数据 采集 接口 
* 
* @param request 
* @param response 
* (throws Exception 
*7 
@SuppressWarnings({ "rawtypes", "unchecked" }) 
@RequestMapping (value = "/businessDataReceive") 
public void businessDataReceive (HttpServletRequest request, 
HttpServlet Response response)throws Exception { 
log.info("the start of businessDataReceive "); 
Map result = new HashMap (); 
log. info ("AIM X DispatchServer 发 来 数据 * *... \r\n"); 
String jsonData = ""; 
try ( 
jsonData = new String((request.getParameter ("data") .getBytes 
("iso-8859-1")),"UTF-8"); 
} catch(UnsupportedEncodingException e){ 
e.printStackTrace (); 
log.error ("receive data occur exception:" + e.getMessage ()); 
} 
JSONObject jo = JSONObject.fromObject (jsonData) ; 
11 数据 参数 校 验 
String validateInfo = "" + ValidateUtil.checkAppType (JsonUtil. 
getJsonParamterString (jo, "appType"))+(ValidateUtil.isValid 
(JsonUtil.getJsonParamterString (jo,"dataType"))== true ? "": 
"false")+ ValidateUtil.checkDateTime (JsonUtil. 
getJsonParamterString (jo, "collectDate"))+(ValidateUtil.isValid 
(JsonUtil.getJsonParamterString (jo,"phone"))== true ? "": 
"false"); 
71 校 验 通过 
if("".equals (validateInfo)){ 
String isMongo = PropertiesReader.getProp ("mongodb"); 
String isMysql = PropertiesReader.getProp ("mysql"); 
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String isHbase = PropertiesReader.getProp ("hbase"); 
Map<String, Class>classMap=new HashMap<>(); 
classMap.put ("dataValue", HashMap.class) ; 
// Ni mongodbJSONObject 
SportsData sportsData =(SportsData) JSONObject.toBean (JSONObject . 
fromObject (jsonData), SportsData.class,classMap) ; 
if ("true".equals (isMongo) ) { 
// NE mongodb 
sportsDataService.saveSportsData (sportsData) ; 
} else if ("true".equals (isMysql)) { 
// AJE mysql 
new Context (request, response, observationService, 
patientService).request(); 
) else if("true".equals (isHbase))( 
// A Hbase 库 
sportsDataHbaseService.saveData (sportsData); 
) 
pelse s 
response.setStatus (412); 
result.put ("status", "数据 验证 失败 !" + validateInfo); 
log.info("the end of businessDataReceive has invalidate param 
include " + validateInfo); 
} 
response.setStatus (200); 
ResponseUtil.writeInfo (response, JSONObject.fromObject (result). 
toString ()); 
} 


(2) 系统 应 用 配置 文件 SysConfproperties， 主 要 用 于 配置 该 服务 支持 的 app 应 用 类 
型 、 入 库 方式 等 。 配 置 如 下 : 


apptype=AppA 
datatype=bloodpressure 
sendData=false 
HATE mysql 的 标识 
mysql=true 

# 保 存 到 mongodb 的 标识 
mongodb=false 
HRTF hbase 的 标识 
hbase=false 
#apptype 

APPTYPE AppA=AppA 
APPTYPE AppB=AppB 
APPTYPE AppC-AppC 
APPTYPE AppD-AppD 


poe oS a 


G) 定义 智能 终端 运动 数据 实体 类 SportsData, fit mysql. mongodb 入 库 (第 5 章 
HED 使 用 。 代 码 实现 如 下 : 
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(4) 定义 微服 务 消息 交互 类 Message， 包 含 操作 状态 码 、 提 示 信 息 、 返 回 数据 等 参 
数 。 代 码 实现 如 下 : 


(5) 日 期 操作 工具 类 DateUtil， 其 主要 封装 了 对 日 期 操作 的 常用 方法 ， 代 码 实 现 参 
考 数据 采集 服务 的 DateUtil 类 。 具 体 代 码 参考 第 2 章 的 相关 DateUtil 类 。 
(6) Json 操作 工具 类 JsonUtil, 封装 了 对 ISON 数据 格式 的 常用 方法 ， 代 码 实现 参考 
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数据 采集 服务 的 JsonUtil 类 。 具 体 代码 参考 第 2 章 的 相关 Jsonutil 类 。 

(7) 配置 文件 读 取 工 具 类 PropertiesReader， 封 装 了 对 properties 格式 文件 的 读 取 ， 
代码 实现 参考 数据 采集 服务 的 PropertiesReader 类 ， 需 要 注意 的 是 ， 读 取 配 置 文件 的 路 
径 要 与 本 服务 配置 文件 的 路 径 吻 合 。 有 具体 代码 参考 第 2 章 的 相关 PropertiesReader 类 。 

(8) 数据 响应 给 客户 端的 工具 类 ResponseUtil， 封 装 了 httpResponse 返回 给 客户 端 
相关 的 方法 。 代 码 实现 如 下 : 


package com.cloud.storage.util; 


import java.io.IOException; 
import javax.servlet.http.HttpServletResponse; 
public class ResponseUtil { 
/** 
* write to the client with the value 
* 
* @param response 
= 
public static void writeInfo (HttpServletResponse response, String 
value) { 
try { 
response. setContentType ("text/html;charset=utf-8"); 
response.getWriter () .write (value); 
response.getWriter () .flush (); 
response.getWriter().close(); 
) catch(IOException e)( 
e.printStackTrace(); 


/** 
* write to the client success 
* 
* (param response 
public static void writeSuccess (HttpServletResponse response)( 
try { 
response.setContentType ("text/html;charset-utf-8"); 
response.getWriter () .write ("{\"status\":\"success\"}"); 
response.getWriter().flush(); 
response.getWriter().close(); 
} catch(IOException e) { 
e.printStackTrace(); 


/** 
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(9) 参数 校 验 工 具 类 ValidateUtil， 其 主要 封装 了 对 Java 常用 数据 类 型 的 校 验 。 代 
码 实现 如 下 : 
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isNumber = number.matches ("^0| ([1-9]+[0-9]*)$"); 
return isNumber; 


4.3.5 MySQL 对 智能 终端 运动 数据 的 分 状态 和 分 策略 处 理 


数据 接收 包括 两 个 状态 ， 即 接收 和 存储 。 考 虑 到 后 续 可 能 会 增加 转发 或 分 析 状 态 ， 
可 以 使 用 状态 模式 来 实现 高 扩展 性 。 首 先 定义 状态 模式 的 抽象 类 State 和 环境 类 Context, 
其 次 定义 ReceiveState 接收 状态 ， 继 承 State 的 handle 方法 ， 实 现 数据 接收 和 对 象 转换 。 
最 后 定义 SaveState 方法 ， 继 承 State 的 handle 方法 ， 实 现存 储 数 据 。 

(1) 状态 模式 之 抽象 类 ， 定 义 数据 处 理 handle 方法 ， 其 功能 实现 由 接收 以 及 保存 
状态 类 去 实现 。 代 码 实现 如 下 : 


package com.cloud.storage.pattern.state; 
/** 


* 状态 抽象 类 (状态 模式 ) 


* 


* @author Changyaobin 
* 
t/ 
public abstract class State ( 
11 数据 处 理 方法 , Context 为 参数 封装 类 
public abstract void handle (Context context); 
} 


(2) 状态 模式 之 状态 的 Context， 其 主要 作用 是 封装 多 个 状态 处 理 类 需要 用 到 的 参 
数 以 及 定义 数据 处 理 方法 request。 需 要 注意 的 是 ， 当 初始 化 一 个 Context 类 ， 其 状态 类 
会 默认 初始 化 为 接收 状态 。 代 码 实现 如 下 : 


package com.cloud.storage.pattern.state; 

import javax.servlet.http.HttpServletRequest; 
import javax.servlet.http.HttpServletResponse; 
import com.cloud.storage.base.Domain.SportsData; 
import com.cloud.storage.service.ObservationService; 
import com.cloud.storage.service.PatientService; 

/** 

* 多 个 参数 的 封装 类 


* 


* @author changyaobin 

* 
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public class Context { 
private State state; 
private SportsData data; 
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(3) 状态 模式 之 receiveState， 重 写 State 的 handle 方法 ， 主 要 作用 是 将 JSON 字符 
串 数 据 转换 成 SportsData 对 象 ， 同 时 要 切换 到 保存 状态 ， 调 用 当前 状态 〈 已 转换 为 保存 


“Ms 
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状态 ) 进行 数据 处 理 。 代 码 实现 如 下 : 


package com.cloud.storage.pattern.state; 


import 
import 
import 
import 
import 
import 
Jes 


java.util.HashMap; 
com.cloud.storage.base.Domain.SportsData; 
com.cloud.storage.util.JsonUtil; 
com.cloud.storage.util.Log; 
net.sf.json.JSONArray; 
net.sf.json.JSONObject; 


* 接收 状态 (状态 模式 ) 


* 


* @author changyaobin 


* 
SI 
public 


class ReceiveState extends State { 


@override 


public void handle(Context context) { 
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Log.getLogger().i("now is in receive state"); 

String params = context.getRequest () .getParameter ("data"); 

JSONObject jo = JSONObject.fromObject (params) ; 

String phone = JsonUtil.getJsonParamterString (jo, "phone") ; 

String appType = JsonUtil.getJsonParamterString (jo, "appType") ; 

String dataType = JsonUtil.getJsonParamterString (jo, "dataType") ; 

String pname = JsonUtil.getJsonParamterString (jo, "pname") ; 

String teamName = JsonUtil.getJsonParamterString (jo, "teamName") ; 

String company = JsonUtil.getJsonParamterString (jo, company"); 

SportsData data = new SportsData(); 

data.setAppType (appType) ; 

data.setDataType (dataType) ; 

data.setPhone (phone) ; 

data.setPname (pname) ; 

data.setCompany (company) ; 

data.setTeamName (teamName) ; 

data.setCollectDate (JsonUtil.getJsonParamterString (jo, 
"collectDate") ); 

data.setDataValue (JSONArray.toList (JSONArray.fromObject 
(jo.get ("dataValue") ),HashMap.class) ); 

Log.getLogger () .i("receive data:" + data.toString()); 

context .setData (data); 

context.setState (new SaveState()); 

context.request (); 
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(4) 状态 模式 之 SaveState, #5 State 的 handle 方法 ， 其 主要 功能 是 将 患者 的 信息 
入 库 后 ， 通 过 策略 工厂 StrategyFactory 来 根据 不 同 的 App 类 型 初始 化 出 不 同 的 策略 处 
HR, 进行 智能 终端 运动 数据 入 库 操 作 。 在 这 里 采用 的 工厂 以 及 策略 模式 ， 主 要 考虑 到 
不 同 厂家 采用 不 同 的 策略 处 理 方式 ， 如 Appa 业务 采用 AppAStrategy 策略 模式 ，AppB 
业务 采用 AppBStrategy 策略 模式 ， 这 样 保证 了 以 后 业务 的 高 度 扩展 性 。 代 码 实现 如 下 : 


package com.cloud.storage.pattern.state; 


import 
import 
import 
import 
import 
/** 


com.cloud.storage.base.Domain.Patient; 
com.cloud.storage.base.Domain.SportsData; 
com.cloud.storage.pattern.factory.StrategyFactory; 
com.cloud.storage.pattern.strategy.Strategy; 
com.cloud.storage.util.Log; 


* 保存 状态 (状态 模式 ) 


* 


* @author changyaobin 


* 
=/ 
public 


class SaveState extends State { 


@Override 
public void handle (Context context) { 


} 


SportsData data = context.getData(); 

Patient patient=new Patient (); 

patient.setPhone (data.getPhone ()); 

patient.setDeviceld (data.getDeviceID()); 

patient.setName (data.getPname ()); 

patient.setAppType (data.getAppType ()); 

boolean savePatient2MysqlSuccess = context.getPatientService(). 
savePatient2Mysql (patient); 

if (savePatient2MysqlSuccess) { 

Log.getLogger () .i("now begin to save data!"); 

Strategy st = new StrategyFactory (context.getRequest (). 
getSession() .getServletContext (),context.getData(). 
getAppType ()) .getInstance (); 

st.dealData (context) ; 

}jelse{ 
Log.getLogger () .error ("save patient data fail"); 


(5) 策略 工厂 类 StrategyFactory, 用 于 依据 不 同 的 AppType M Spring 容器 获得 不 同 
的 策略 处 理 类 。 需 要 注意 的 是 ， 由 于 是 从 Spring 容器 中 获取 策略 类 ， 但 前 提 条 件 是 已 
经 在 Spring 容器 中 注入 了 AppAtrategy 等 策略 类 ， 否 则 无 法 从 容器 中 获得 这 些 策略 类 ， 
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就 必须 将 各 个 策略 类 注册 到 Spring 容器 中 。 代 码 实现 如 下 : 


package com.cloud.storage.pattern.factory; 


import javax.servlet.ServletContext; 

import org.springframework.context.ApplicationContext; 

import org.springframework.web.context.support. 
WebApplicationContextUtils; 

import com.cloud.storage.pattern.strategy.Strategy; 

/** 

* 策略 工厂 , 根据 不 同 的 AppType 来 生产 对 应 的 策略 处 理 类 


* 


* @author changyaobin 
* 
"7 
public class StrategyFactory { 
private Strategy strategy; 
public StrategyFactory (ServletContext sc,String appType) { 
ApplicationContext ctx = WebApplicationContextUtils. 
getRequired WebApplicationContext (sc); 
strategy =(Strategy)ctx.getBean (appType + "databean"); 
} 
public Strategy getInstance () { 
return strategy; 


} 


(6) 策略 模式 之 抽象 策略 类 Strategy， 定 义 数据 处 理 方法 规范 ， 有 具体 实现 由 其 子 类 
去 完成 。 代 码 实现 如 下 : 


package com.cloud.storage.pattern.strategy; 


import com.cloud.storage.pattern.state.Context; 
/** 


* 策略 的 抽象 类 (策略 模式 ) 


* 


* @author changyaobin 
* 


2 
public abstract class Strategy { 

11 策略 的 处 理 方法 , context 为 多 参数 的 封装 类 

public abstract boolean dealData (Context context); 
} 


(7) unitA 公司 的 AppA 业务 数据 处 理 策略 类 ， 包 括 对 智能 终端 运动 的 3 种 数据 包 
处 理 。 一 是 简要 包 StepCountChainHandler 的 处 理 ， 二 是 详细 包 StepDetailChainHandler 
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的 处 理 ， 三 是 有 效 包 StepEffectiveChainHandler 的 处 理 。 在 这 里 ， 使 用 了 设计 模式 中 的 
责任 链 模 式 , 将 3 个 处 理 类 首尾 拼接 组 成 链 状 , 若 后 续 有 新 的 数据 包 进 来 , 则 只 要 将 其 
责任 处 理 类 加 入 责任 链 中 即 可 。 需要 注意 的 是 , 进行 数据 处 理 时 调用 的 第 一 个 责任 处 理 
类 必须 是 责任 链 的 头 部 处 理 类 。@Component ("AppAdatabean") 表示 注入 实体 类 到 


Spring 容器 中 


Ph， 为 Spring 容器 中 获取 这 个 对 象 做 好 准备 。 代 码 实 现 如 下 : 


package com.cloud.storage.pattern.strategy; 


import 
import 
import 
import 
import 
import 
/** 


org. 
com. 
com. 
com. 


com 


springframework.stereotype.Component; 
cloud.storage.pattern.chain.Handler; 
cloud.storage.pattern.chain.StepCountChainHandler; 
cloud.storage.pattern.chain.StepDetailChainHandler; 


.cloud.storage.pattern.state.Context; 
com. 


cloud.storage.util.Log; 


* unitA 公司 的 AppA 业务 数据 处 理 策略 类 


* 


* @author changyaobin 


en 


@Component ("AppAdatabean") 
public class AppAtrategy extends Strategy { 

@override 

public boolean dealData(Context context) { 
Log.getLogger () .d("Strategy data start save in db !"); 
Handler newStepCountChainHandler = new StepCountChainHandler () ; 
Handler newStepDetailChainHandler = new StepDetailChainHandler () ; 
newStepCountChainHandler.setSuccessor (newStepDetailChainHandler) ; 
return newStepCountChainHandler.HandleRequest (context) ; 


} 


(8) unitA 公司 的 AppB 业务 数据 处 理 类 ， 当 然 ， 在 这 里 并 没有 写 相 关 业 务 代码 ， 
只 是 为 了 直观 地 看 到 策略 模式 的 结构 组 成 。 若 有 真实 的 业务 , 只 需要 在 这 里 组 装 责任 链 
即 可 ， 具 体 思 路 与 AppA 的 策略 处 理 类 一 致 。 代 码 实现 如 下 : 

package com.cloud.storage.pattern.strategy; 


import org.springframework.stereotype.Component; 
import com.cloud.storage.pattern.state.Context; 


/** 


* unita 公司 的 AppB 业务 数据 处 理 策略 类 


* 


* @author changyaobin 
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@Component ("AppBdatabean") 

public class AppBtrategy extends Strategy ( 
@override 
public boolean dealData(Context context) { 

return false; 

} 

} 


43.6 MySQL 对 智能 终端 运动 数据 的 分 职责 处 理 


CL) 责任 链 的 抽象 类 Handler。 责 任 链 模式 (Chain of Responsibility Pattern) 为 请 
求 创建 了 一 个 接收 者 对 象 的 链 。 使 多 个 对 象 都 有 机 会 处 理 请 求 ， 从 而 避免 请 求 的 发 送 者 
和 接收 者 之 间 的 耦合 关系 。 将 这 些 对 象 连 成 一 条 链 ， 并 沿 着 这 条 链 传递 该 请 求 ， 直 到 有 
一 个 对 象 处 理 它 为 止 。 责 任 链 模式 由 以 下 两 个 角色 组 成 。 

© 抽象 处 理 者 角色 〈Handler): 定义 了 一 个 处 理 请 求 的 接口 。 

© 具体 处 理 者 角色 〈Concrete Handler): 实现 抽象 角色 中 定义 的 接口 ， 并 处 理 它 
所 负责 的 请 求 。 如 果 不 能 处 理 则 访问 它 的 后 继 者 。 

责任 链 的 适用 场景 主要 包括 3 种 , 一 是 有 多 个 对 象 可 以 处 理 一 个 请 求 , 哪个 对 象 处 
理 该 请 求 运行 时 刻 自动 确定 ; 二 是 当 在 不 明确 指定 接收 者 的 情况 下 , 向 多 个 对 象 中 的 一 
个 提交 一 个 请 求 ; 三 是 可 处 理 一 个 请 求 的 对 象 集合 应 被 动态 指定 。 责任 链 的 优点 是 降低 
了 耦合 、 提 高 了 灵活 性 。 但 是 责任 链 模 式 可 能 会 带 来 一 些 额 外 的 性 能 损耗 ， 因 为 它 每 次 
执行 请 求 都 要 从 链子 开头 开始 遍历 。 接 下 来 按照 设计 模式 思想 ， 建 立 Handler 抽象 类 ， 
其 主要 定义 了 业务 数据 处 理 方法 规范 。 代 码 实 现 如 下 : 

package com.cloud.storage.pattern.chain; 


import com.cloud.storage.pattern.state.Context; 
/** 


* 责任 抽象 类 (责任 链 模式 ) 


* 


* @author changyaobin 
* 
e 
public abstract class Handler ( 
11 下 一 个 责任 类 的 引用 
protected Handler successor; 
ee 
* @return the successor 
s 
public Handler getSuccessor() { 
return successor; 
} 
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/** 


* @param successor 


* 


the successor to set 


ey 
public void setSuccessor (Handler successor) { 


} 


this.successor = successor; 


fae 

* deal the request 

ll 

public abstract boolean HandleRequest (Context context); 


} 


(2) 简要 包 责 任 类 StepCountChainHandler， 处 理智 能 终端 运动 1 号 和 3 号 数据 包 ， 
调用 ObservationService 的 insertOrUpdateData 方法 进行 智能 终端 运动 数据 存储 到 MySQL o 
如 果 接 收 到 数据 类 型 不 是 智能 终端 运动 简要 包 ， 需 要 传递 请 求 到 智能 终端 运动 详细 包 
StepDetailChainHandler, 具体 方法 是 successor.HandleRequest (context)。 代 码 实 现 如 下 : 


package com.cloud.storage.pattern.chain; 


import 
import 
import 
import 
import 
import 
import 
/** 


java.util.HashMap; 

java.util.Map; 
com.cloud.storage.base.Domain.SportsData; 
com.cloud.storage.pattern.state.Context; 
com.cloud.storage.util.Log; 
com.cloud.storage.util.PropertiesReader; 
net.sf.json.JSONObject; 


* unitA 1 号 数据 包 和 3 号 数据 包 业 务 处 理 责任 类 


* 


* @author changyaobin 


* 
“y 
public 


class StepCountChainHandler extends Handler { 


@Override 
public boolean HandleRequest (Context context) { 


String dataType = context.getData() .getDataType (); 

11 判断 是 否 是 简要 步 数 

if (PropertiesReader.getProp ("DATATYPE STEPCOUNT"). 

equals IgnoreCase (dataType)){ 
SportsData data = context.getData(); 
Log.getLogger ().d("data deal by StepCountChainHandler !"); 
if (data.getDataValue () != null && data.getDataValue () .size () != 
0){ 
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Map<String,Object> map = new HashMap<String, Object>(); 

String measureTime = data.getDataValue () .get (11) .get 
("measureTime") ; 

map .put ("stepCount",data.getDataValue ()); 

// insert into database 

boolean bool = context.getObservationService(). 
insert OrUpdateData (data.getPhone () measureTime, 
PropertiesReader.getProp ("DATATYPE STEPCOUNT"), 
PropertiesReader.getProp ("APPTYPE AppA"), 

JSONObject.fromObject (map) .toString(),data. 
getCollectDate()); 
if (!bool) 
Log.getLogger () .e ("StepCountChainHandler save data 
into db error!"); 
return bool; 
j else ( 

Log.getLogger () .e ("StepCountChainHandler datavalue is 
Duty 

return false; 

} 


} else { 
if(successor != null) 
return successor.HandleRequest (context); 
else 


return false; 


} 


(3) 智能 终端 运动 详细 包 责 任 类 StepDetailChainHandler， 处 理智 能 终端 运动 2 号 
包 ， 调 用 ObservationService 的 insertOrUpdateData 方法 进行 智能 终端 运动 数据 存储 到 
MySQL。 若 数据 不 是 2 号 包 数 据 且 存在 下 一 个 责任 类 ， 则 调用 下 一 个 责任 类 进行 处 理 。 
代码 实现 如 下 : 


package com.cloud.storage.pattern.chain; 

import java.util.HashMap; 

import java.util.Map; 

import com.cloud.storage.base.Domain.SportsData; 
import com.cloud.storage.pattern.state.Context; 
import com.cloud.storage.util.Log; 

import com.cloud.storage.util.PropertiesReader; 
import net.sf.json.JSONObject; 


pur 


* unitA 2 号 包 业 务 处 理 责任 类 
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* 

* @author changyaobin 

* 

Sl 

public class StepDetailChainHandler extends Handler { 


@override 
public boolean HandleRequest (Context context) { 
String dataType = context.getData() .getDataType (); 
// 判断 是 否 是 详细 步 数 
if(PropertiesReader.getProp("DATATYPE STEPDETIAL"). 
equals IgnoreCase (dataType))( 
SportsData data - context.getData(); 
Log.getLogger () .d("data deal by StepDetailChainHandler !"); 
if(data.getDataValue()!- null && data.getDataValue().size()!- 0){ 
Map<String,Object> map = new HashMap<String, Object> (); 
String measureTime = data.getDataValue () .get (7) .get 
("measureTime"); 
String hour = data.getDataValue () .get (6) .get ("hour"); 
if (Integer .parseInt (hour) < 10 && measureTime. length ()== 10) { 
hour = "0" + hour; 
} 
measureTime +=(" " + hour + ":" + "00" + ":" + "00"); 
map.put ("stepDetail",data.getDataValue ()); 
// insert into database 
boolean bool = context.getObservationService(). 
insertOr UpdateData (data.getPhone () measureTime, 
PropertiesReader.getProp("DATATYPE STEPDETIAL"), 
PropertiesReader.getProp("APPTYPE AppA"), 
JSONObject.fromObject (map) .toString(), data. 
getCollectDate ()); 
if(!bool) 
Log.getLogger () .e("StepDetailChainHandler save data 
into db error!"); 
return bool; 
} else { 
Log.getLogger () .e ("StepDetailChainHandler datavalue is 
null)? 
return false; 
} 
} else { 
if(successor != null) 
return successor.HandleRequest (context); 
else 
return false; 
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4.3.7. MySQL 对 智能 终端 运动 数据 的 统一 入 库 处 理 


(1) 智能 终端 运动 数据 入 库 接 口 ObservationService ， 主 要 定义 入 库 方 法 
insertOrUpdateData 以 及 参数 。 代 码 实现 如 下 : 


package com.cloud.storage.service; 
/** 
* 数据 插入 Myson 的 接口 层 


* 


* @author changyaobin 
* 


= 
public interface ObservationService { 
/** 


通用 的 数据 插入 接口 


* 
* 
* @param uniqueField 
. phone number 
* @param dateTime 
> measureTime 
* @param businessType 
e from concept table's conceptDescribe filed 
* (param appType 
* app type 
* (param param 
i JSONObject string 
* (param receiveDateTime 
= when the date be collected 
Lyf 
public boolean insertOrUpdateData (String uniqueField, String dateTime, 
String businessType,String appType, 
String param, String collectDate); 
} 


(2) 智能 终端 运动 数据 入 库 处 理 类 ObservationServicelmpl, 实现 ObservationService 
接口 ,在 入 库 时 ,需要 对 patientId 进行 检验 ,如 果 patientId 在 海量 存储 服务 中 的 patient 
表 没 有 注册 ， 那 么 就 不 能 接收 该 智能 终端 运动 数据 。 同 时 需要 进行 conceptld (也 是 
App 对 应 的 id) 的 检验 ， 如 果 conceptld 在 海量 存储 服务 中 的 concept 表 没 有 注册 ， 
那么 就 不 能 接收 该 智能 终端 运动 数据 。 当 校 验 通过 后 ， 进 行 入 库 或 者 更 新 操作 。 代 
码 实现 如 下 : 
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package com.cloud.storage.serviceImpl; 
import java.util.List; 
import java.util.Map; 
import org.springframework.beans.factory.annotation.Autowired; 
import org.springframework.stereotype.Service; 
import com.cloud.storage.dao.JdbcDao; 
import com.cloud.storage.service.ObservationService; 
import com.cloud.storage.util.DateUtil; 
import net.sf.json.JSONObject; 
@SuppressWarnings({ "all" }) 
@Service 
public class ObservationServiceImpl implements ObservationService { 
private static org.apache.log4j.Logger log = org.apache.log4j3. 
Logger.getLogger (ObservationServiceImpl.class); 
@Autowired 
private JdbcDao jdbcDao; 
GOverride 
@SuppressWarnings ("rawtypes") 
public boolean insertOrUpdateData (String uniqueField, String dateTime, 
String businessType,String appType, 
String param,String collectDate)( 
// find patientId 
int patientId = this.queryPatientByPhone (uniqueField, appType) ; 
if(0 == patientId)( 
log.debug("patient not found,param is:" + "uniqueField-" + 
uniqueField + " appType-" + appType); 
return false; 


) else ( 
String concept sql= "SELECT conceptId, conceptName FROM concept 
WHERE conceptDescribe = '" + businessType + 


List list = this.jdbcDao.getData (concept sql); 

JSONObject jo = JSONObject.fromObject (param); 

String[] sql = new String[list = null ? 0:list.size()]; 

String check sql = "SELECT COUNT (1) FROM observation WHERE 
conceptId = '%s' AND patientId = '$s' AND obsDatetime = '$s' "; 

String insert sql = "INSERT into 'observation' ('obsDatetime', 
'value','conceptId','patientId','collectDate', 
'receiveDateTime')values('$s','$s','$s','$s', 
UE is Sal $5 M) ILES 

String update sql - "UPDATE observation set value - '$s', 
collectDate = '$s',receiveDateTime = '$s' WHERE conceptId 
= '$s' AND patientId = '$s' AND obsDatetime = '$s' "; 

for (int i = 0;i < list.size();i++){ 


Map map =(Map) list.get (i); 
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(3) 定义 接口 JabcDao， 封 装 了 对 MySQL 数据 库 通 用 的 增 、 删 、 改 、 查 方法 。 代 
码 实现 如 下 : 
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public List<HashMap<String,String>> getObsData(String appType, 
String conceptDescribe,String startTime, String endTime, 
String isMq); 

fee 

* @param sql 

* @param changeSecond 

* @return 

2 

public String getJson(String sql); 

} 


(4) 数据 库 操作 实现 类 JdbeDaolmpl, Sl JdbeDao 接口 。JdbcTemplate 是 SpringIDBC 
架 的 核心 ，JdbcTemplate 是 为 不 同类 型 的 IDBC 操作 提供 模板 方法 ， 每 个 模板 方法 都 
控制 整个 过 程 , 并 允许 覆盖 过 程 中 的 特定 任务 。 通 过 模板 方法 可 以 在 尽 可 能 保留 灵活 


性 的 情况 下 ， 将 数据 库存 取 的 工作 量 降 到 最 低 。JdbcTemplate 主要 提供 以 下 五 类 方法 ， 


用 


是 execute 方法 ， 用 于 执行 任何 SQL 语句 ， 一 般 执 行 DDL 语句 ， 二 是 update 方法 ， 
于 执行 新 增 、 修 改 、 删 除 等 语句 ;三 是 batchUpdate 方法 ， 用 于 执行 批 处 理 相关 语句 ; 


四 是 query 方法 及 queryForXXX 方法 ， 用 于 执行 查询 相关 语句 ， 五 是 call 方法 ， 用 于 
执行 存储 过 程 、 函 数 相关 语句 。 代 码 实现 如 下 : 


package com.cloud.storage.daoImpl; 

import java.sql.Connection; 

import java.sql.PreparedStatement; 

import java.sql.ResultSet; 

import java.sql.ResultSetMetaData; 

import java.sql.SQLException; 

import java.sql.Statement; 

import java.util.ArrayList; 

import java.util.Collections; 

import java.util.Comparator; 

import java.util.HashMap; 

import java.util.List; 

import java.util.Map; 

import javax.sql.DataSource; 

import org.springframework.beans.factory.annotation.Autowired; 
import org.springframework.dao.DataAccessException; 

import org.springframework.dao.EmptyResultDataAccessException; 
import org.springframework.dao.IncorrectResultSizeDataAccessException; 
import org.springframework.jdbc.core.ConnectionCallback; 
import org.springframework.jdbc.core.JdbcTemplate; 

import org.springframework.jdbc.core.PreparedStatementCreator; 
import org.springframework.jdbc.core.ResultSetExtractor; 
import org.springframework.jdbc.core.StatementCallback; 

import org.springframework.jdbc.support.GeneratedKeyHolder; 
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org.springframework.jdbc.support.KeyHolder; 
org.springframework.jdbc.support.rowset.SqlRowSet; 
org.springframework.stereotype.Repository; 
com.cloud.storage.dao.JdbcDao; 
com.mchange.v2.c3p0.PooledDataSource; 


* jdbcdao 实现 类 


* 


* (author changyaobin 


* 


ll 


@Repository 


public 


class JdbcDaoImpl implements JdbcDao { 


@Autowired 

JdbcTemplate jdbcTemplate; 
@Override 

public String monitor (){ 


} 


StringBuffer re value = new StringBuffer (); 
re value.append ("monitor c3p0 pool"); 
DataSource ds = this. jdbcTemplate.getDataSource (); 
if(ds instanceof PooledDataSource) { 
try ( 
PooledDataSource pds =(PooledDataSource)ds; 
re value.append("\r\nnum connections:") .append (pds. 
getNumConnectionsDefaultUser () ) 


.append ("\r\nnum busy connections:") .append 
(pds . getNumBusyConnectionsDefaultUser () ) 
.append ("\r\nnum idle connections:") .append 


(pds . getNumIdleConnectionsDefaultUser ()); 
} catch (SQLException e) { 
re value.append("\r\n" + e.getMessage()); 

} 
} else { 

re value.append("\r\nNot a c3p0 PooledDataSource!"); 
} 
return re value.toString(); 


foverride 
public void execute (final String sql) { 


} 


jdbcTemplate.execute (sql); 


@override 
public int delete (String sql) { 


return jdbcTemplate.update (sql); 
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public List<HashMap<String,String>> getScollData (final String sql, 
final int pageno, final int pagesize) { 
return (List<HashMap<String, String>>) jdbcTemplate.execute (new 
ConnectionCallback () { 
@override 
public List doInConnection (Connection conn) throws SQLException, 
DataAccessException { 
PreparedStatement pstat = conn.prepareStatement (sql, 
ResultSet.TYPE SCROLL INSENSITIVE, ResultSet .CONCUR 
READ ONLY) ; 
List<HashMap<String, String>> result = new ArrayList 
<HashMap<String, String>> (); 
// 最 大 查询 的 记录 条 数 
pstat.setMaxRows (pageno * pagesize); 
ResultSet rs = pstat.executeQuery (); 
11 将 游标 移动 到 第 一 条 记录 
es 
// 游标 移动 到 要 输出 的 第 一 条 记录 
rs.relative((pageno - 1)* pagesize - 1); 
ResultSetMetaData rsmd = rs.getMetaData (); 
while (rs.next ()) 1 
HashMap<String, String> map = new HashMap<String, 
String> (); 
for(int i = 0;i < rsmd.getColumnCount () ;i++) { 
map.put (rsmd.getColumnLabel (i + 1),rs.getString 
(yO 
} 
result.add (map); 
} 
return result; 


ye 
} 
@override 
public List<HashMap<String,String>> getObsData(String appType, 
String conceptDescribe, String startTime, 
String endTime, String isMq) { 
String condition = ""; 
if(null != startTime && null != endTime) { 
condition = "and date (C.obsDatetime)>= '" + startTime + "' 
and date (C.obsDatetime)<= '" + endTime + "'"; 

} 

String sql = "select B.encounterId,A.patientId,A.idcard, 
A.phone,A.email,A.name,C.obsDatetime,C.value,D.conceptName 
from patient A,#enc# B,#obs# C,concept D where A.patientId = 
B.patientId and B.encounterId = C.encounterId and C.conceptId = 
D.conceptId and D.conceptDescribe = '" + conceptDescribe + "' 
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" + condition + " and C.encounter Type ='" + appType + "'"; 
if (null = isMq) { 
sql sql.replace ("#enc#","encounter"); 
sql = sql.replace ("#obs#", "observation"); 


[ 


Sql = sql.replace ("#enc#","mgencounter"); 
sql.replace ("#obs#", "mqobservation") ; 


u 
[e 
a 
[ 


List<HashMap<String,String>> list - null; 
try ( 
list = this.getData (sql); 
} catch (Exception e) { 
e.printStackTrace (); 
} 
Map<String, HashMap<String,String>> rowData = new HashMap 
< String, HashMap<String, String>> (); 
for (HashMap<String, String> temp:list) { 
HashMap<String,String> data = rowData.get (temp.get 
("encounterId").trim()); 
if (null == data)( 
data = temp; 
rowData.put (temp.get ("encounterId") .trim(), data); 
} 
data.put (temp.get ("conceptName") .trim() ,temp .get 
("value")); 
} 
List<HashMap<String,String>> result = new ArrayList<HashMap 
<String, String>> (); 
for (HashMap<String,String> map:rowData.values ()) 1 
result .add (map); 
} 
rowData = null; 
Collections.sort (result,new Comparator<HashMap<String, 
String>> () { 
@override 
public int compare (HashMap<String,String> runOne, HashMap 
< String,String> runTwo) { 
return runTwo.get ("obsDatetime") .compareTo (runOne.get 
("obsDatetime")); 


1); 
return result; 
} 
@SuppressWarnings ({"unchecked", "rawtypes")) 
@override 
public String getJson(final String sql) { 
try { 
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return (String) jdbcTemplate.execute (new StatementCallback () { 
@override 
public String doInStatement (Statement statement) throws 
SQLException, DataAccessException { 
StringBuffer result = new StringBuffer ("["); 
ResultSet rs = statement .executeQuery (sql); 
while (rs.next ()){ 
result.append ("["); 
// difference 8 hours 
result.append (rs.getTimestamp (1) .getTime ()+ 
1000: * g0 4 60 © 8f; 
result.append(","); 
result .append (rs.getInt (2)).append("]"). 
append(","); 
} 
if (result.toString().endsWith(",")) 
result.deleteCharAt (result.lastIndexof (",")); 
result.append("]"); 
return result.toString(); 


he 
} catch (DataAccessException e) { 


return "日 常数 据 查 询 异 常 ! 异 常 信息 :\r\n"” + e.getMessage (); 


(5) 同时 启动 BD_AggregateServer Maven 工程 服务 、BD_DispatchServer_ Maven 


工程 服务 、Eureka 注册 中 心 (若是 Spring Boot 服务 则 需要 开启 ), 然后 启动 模拟 端 发 送 


数据 ， 本 服务 就 会 接收 到 dispatcher 服务 转发 的 智能 终端 运动 数据 ， 并 存储 到 本 服务 的 
observation 表 中 ， 测 试验 证 结果 如 图 4-4 所 示 。 
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44 项 目 小 结 


(1) 比较 Spring MVC 和 Spring Boot 架构 的 不 同 : Spring MVC 主要 是 通过 大 量 的 
xml 文件 来 完成 Web 服务 , Spring. Spring MVC, jdbc 的 配置 , 较为 烦琐 。 而 Spring Boot 
则 是 采用 “约定 大 于 俗 成 ”原则 ， 在 一 个 核心 配置 文件 application.properties 中 来 完成 
以 上 配置 ， 比 起 Spring MVC， 更 为 简单 和 快捷 。 

(2) 熟悉 Spring 和 Spring MVC 的 相关 注解 的 含义 。 

(D @Controller: 控制 层 controller 注解 ， 用 于 数据 的 接收 。 

@ @Autowired: 类 型 自动 注入 ， 通 过 类 型 自动 匹配 完成 属性 注入 。 

® @RequestMapping: Springmvc 提供 的 注解 ,通过 指定 名 称 来 完成 对 外 接口 路 径 
的 定义 。 

® @Service: 业务 层 的 注解 ， 用 于 标识 该 类 属于 业务 层 代 码 。 

© (QRepository: 持久 层 的 直接 ， 用 于 标识 该 类 属于 持久 层 代码 。 

(3) 利用 HttpservletReuqest 对 象 获取 Spring 容器 以 及 注册 对 象 : 

ApplicationContext ctx =WebApplicationContextUtils. 

getRequiredWebApplicationContext (sc); 

strategy = (Strategy) ctx.getBean (appType + "databean"); 

(4) 状态 模式 和 数据 的 状态 处 理 : 接收 数据 以 后 ， 可 以 分 为 接收 和 存储 两 个 内 部 状 
态 ， 默 认 初 始 化 状态 为 接收 状态 。 当 接收 状态 处 理 完毕 后 ， 内 部 切换 到 存储 状态 。 以 后 
若 有 其 他 业务 ， 添 加 相应 的 状态 处 理 类 即 可 。 

(5) 策略 模式 和 智能 终端 运动 数据 的 分 策略 处 理 : 依据 不 同 的 app 类 型 ,来 调用 不 
同 的 策略 处 理 类 。 这 样 ， 各 个 策略 类 之 间 相互 独立 ， 耦 合 度 低 。 当 有 新 的 应 用 加 入 时 ， 
开发 其 相应 的 类 即 可 。 

(6) 责任 链 模式 和 智能 终端 运动 数据 的 分 责任 处 理 ， 对 于 智能 终端 运动 数据 而 言 ， 
431. 2. 3353 类 运动 数据 包 。 由 于 其 类 别 不 同 ， 处 理 方式 也 必然 不 同 。 考 虑 到 业务 
以 后 的 扩展 性 , 可 以 将 每 个 包 的 业务 编写 成 相应 的 责任 处 理 类 , 并 将 其 首尾 连接 组 成 链 
状 。 当 有 数据 需要 处 理 时 ， 则 将 其 传 入 链 中 依次 进行 匹配 处 理 即 可 。 若 有 新 类 别 的 数据 
包 ， 则 编写 责任 类 ， 并 组 装 到 链 的 尾部 即 可 。 
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i . 
大 数据 架构 之 道 与 项 目 实 成 了 


架构 之 道 分 享 之 五 : 孙子 兵法 的 《 九 地 篇 》 论 述 了 进攻 作战 中 的 9 种 地 理 环境 
和 作战 原则 ,强调 了 激励 士气 来 提升 战斗 力 的 问题 。 在 项 目 管理 中 , 要 考虑 到 绩效 考 
核 和 激励 制度 不 让 奋斗 者 吃亏 的 重要 性 。 


* 掌握 基于 Spring Boot 和 Spring MVC 框架 的 海量 存储 服务 构建 方法 

* 掌握 Spring MVC, Spring Boot 对 mongodb 的 集成 方法 , 以 及 mongoTemplate 
操作 接口 

* 了 解 AngularJS 的 工作 机 制 和 实战 技术 


51 核心 需求 分 析 和 优秀 解决 方案 


高 并 发 海量 存储 服务 引擎 是 为 建立 集中 式 的 物 联网 数据 资源 池 而 构建 的 , 包括 对 物 
联网 各 种 数据 类 型 的 高 并 发 接 入 。 在 实际 运营 中 , 我 们 需要 在 对 业务 处 理 实现 升级 改造 
并 持续 演进 。 如 何 应 对 数据 类 型 和 数据 格式 的 灵活 变化 ， 是 本 章 要 论述 的 基于 MongoDB 
的 高 并 发 采集 大 数据 处 理 服务 的 主要 出 发 点 。MongoDB 不 仅 是 面向 文档 存储 的 数据 库 ， 
更 是 适合 业务 扩展 的 高 效 处 理 数据 库 , 对 新 业务 扩展 和 老 业 务 升级 具有 一 站 式 处 理 的 能 
力 。 目 前 ，MongoDB 支持 管道 以 及 MapReduce， 并 提供 易于 扩展 的 物 联 网 大 数据 的 离 
线 计算 和 批 处 理 架 构 , 可 以 满足 绝 大 部 分 业务 需求 和 个 性 化 服务 构建 。 本 章 是 针对 物 联 
网 智能 终端 运动 大 数据 和 体检 大 数据 进行 海量 存储 ， 其 中 体检 大 数据 实现 了 基于 
AngularJS 架构 的 可 视 化 展示 。 


52 ”服务 引擎 的 技术 架构 设计 


大 数据 高 并 发 海量 存储 服务 引擎 包括 5 个 核心 模块 ， 如 图 5-1 所 示 ， 每 一 个 模块 要 
考虑 通用 性 和 高 性 能 两 个 关键 因素 ， 具 体 说 明 如 下 。 

DM 核心 模块 一 : 构建 主流 的 服务 框架 Spring MVC. Spring Boot 和 MongoDB 集成 。 

(2) 核心 模块 二 : 创建 统一 的 MongoDB 操作 数据 库 Dao 层 ， 可 以 适合 任务 类 型 业 
务 处 理 。 

(3) 核心 模块 三 : 提供 对 物 联网 智能 终端 运动 大 数据 的 统一 处 理 ， 包 括 Controller 
层 和 Service 层 实现 。 

(4) 核心 模块 四 : 提供 对 物 联 网 体检 大 数据 的 统一 处 理 , 包括 Controller 层 和 Service 
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(5) 核心 模块 五 : 通过 AngularJS 实现 前 后 端 分 离 ， 展 示 体 检 报 告 并 可 以 灵活 扩展 
数据 内 容 。 


A RE DRE 


图 5-1 大 数据 高 并 发 存储 服务 模块 化 设计 


53 ”核心 技术 讲解 及 模块 化 实现 


MongoDB 是 由 C++ 语言 编写 的 基于 分 布 式 文件 存储 的 开源 数据 库 系 统 , 其 数据 存 
储 灵活 、 查 询 语句 丰富 、 查 询 性 能 快 等 特点 已 经 越 来 越 受 到 开发 者 的 青睐 。MongoDB 
是 一 个 面向 文档 存储 的 数据 库 ， 所 有 存储 在 集合 中 的 数据 都 是 BSON 格式 。BSON 是 
一 种 类 json 的 二 进 制 形式 的 存储 格式 ， 简 称 Binary JSON. MongoDB 字段 值 可 以 包含 
其 他 文档 ， 数 组 及 文档 数组 ， 操 作 起 来 比较 简单 和 容易 。Mongo 支持 丰富 的 查询 表达 
sk, 查询 指令 使 用 ISON 形式 的 标记 ， 可 轻易 查询 文档 中 内 嵌 的 对 象 及 数组 。 在 安全 性 
方面 ，MongoDB 可 以 添加 更 多 的 节点 实现 复制 集 ， 保 证 系统 的 安全 性 、 容 灾 性 等 。 在 
高 负载 的 情况 下 ， 可 以 自 定义 索引 以 及 搭建 分 片 来 提高 系统 的 整体 查询 性 能 。 同 时 ， 
MongoDB 支持 管道 以 及 并 行 计 算 框架 MapReduce， 可 以 通过 一 些 高 级 语法 来 完成 对 数 
据 统计 分 析 等 复杂 功能 。 众 所 周知 ， 传 统 的 NoSql 数据 库 对 事务 的 支持 不 是 很 理想 ， 
但 是 2018 年 7 月 MongoDB 宣布 推出 4.0 版 本 , 来 支持 多 文档 事务 。 迄今 为 止 已 经 有 接 
近 3000 多 万 下 载 量 。 MongoDB 是 一 个 可 以 应 用 于 各 种 规模 的 企业 、 各 个 行业 以 及 各 类 
应 用 程序 的 开源 数据 库 。 

本 章 对 体检 报告 的 处 理 使 用 了 高 级 查询 管道 技术 。MongoDB 的 聚合 管道 将 
MongoDB 文档 在 一 个 管道 处 理 完毕 后 将 结果 传递 给 下 一 个 管道 处 理 。 管 道 操作 是 可 以 
重复 的 。 首 先 介绍 聚合 框架 中 常用 的 几 个 操作 。 
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e $project: 修改 输入 文档 的 结构 。 可 以 用 来 重 命名 、 增 加 或 删除 域 ， 也 可 以 用 于 
BNET RAR ARE SH 

e Slookup: 用 于 MongoDB 中 两 个 collection 之 间 关 联 查 询 。 

e $match: 用 于 过 滤 数 据 ， 只 输出 符合 条 件 的 文档 。$match 使 用 MongoDB 的 标准 
查询 操作 。 

e Slimit: 用 来 限制 MongoDB 聚合 管道 返回 的 文档 数 。 

e $skip: 在 聚合 管道 中 跳 过 指定 数量 的 文档 ， 并 返回 余下 的 文档 。 

e Sunwind: 将 文档 中 的 某 一 个 数组 类 型 字段 拆 分 成 多 条 ， 每 条 包含 数组 中 的 一 个 值 。 

e Sgroup: 将 集合 中 的 文档 分 组 ， 可 用 于 统计 结果 。 

$sort: 将 输入 文档 排序 后 输出 。 

e $geoNear: 输出 接近 某 一 地 理 位 置 的 有 序 文档 。 


5.3.1 Spring MVC 和 Spring Boot 集成 MongoDB 


构建 BD_StorageServer Maven 工程 。Java 操作 MongoDB 数据 库 目 前 主要 有 3 种 
方式 。 第 一 种 方式 可 以 通过 MongoDB 底层 驱动 包 提供 的 mongoClient 类 进行 操作 ， 但 
是 较为 烦琐 且 扩展 性 不 好 , 项 目 开 发 中 几乎 很 少 使 用 这 种 方式 。 本 章 主 要 集中 介绍 使 用 
Spring MVC 和 Spring Boot 集成 MongoDB 两 种 流行 的 配置 方式 。 配 置 过 程 如 下 。 

COD 首先 ， 需 要 引入 MongoDB 的 相关 jar 包 依赖 ， 在 项 目的 pom.xml 文件 中 添加 
依赖 如 下 : 

(D Spring MVC 集成 MongoDB， 配 置 如 下 : 


<!-- mongodb --> 

<dependency> 
<groupId>org.mongodb</groupId> 
<artifactId>mongo-java-driver</artifactId> 
<version>3.4.0</version> 

</dependency> 

<!-- https://mvnrepository.com/artifact/org.Springframework.data/ 

Spring-data-mongodb --> 

<dependency> 
<groupId>org.Springframework.data</groupId> 
<artifactId>Spring-data-mongodb</artifactId> 
<version>1.10.6.RELEASE</version> 

</dependency> 


(2) Spring Boot 集成 mongodb， 配 置 如 下 : 


<!-- Spring Boot 集成 mongodb --> 
<dependency> 
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<groupId>org.Springframework.boot</groupId> 
<artifactId>Spring-boot-starter-data-mongodb</artifactId> 
</dependency> 


(2) MongoDB 的 参数 配置 文件 mongodb.properties (Spring MVC 集成 mongodb 时 


需 用 到 )， 用 于 设置 mongodb 的 让、 端口 、 连 接 超 时 时 间 、 每 个 主机 连接 数 、 线 程 队列 
数 等 。 具 体 配 置 如 下 : 


# 主 机 

mongo.host=localhost 
#mongo.host=10.2.44.105 

# 端 口 

mongo .port=27017 

33 pU E 
mongo.hostport-localhost:27017 
# 每 个 主机 的 连接 数 

mongo .connectionsPerHost=10 
#mongo .connectionsPerHost=2000 
# 线 程 队列 数 
mongo.threadsAllowedToBlockForConnectionMultiplier=20 
# 连 接 超时 的 毫秒 。0 是 默认 和 无 限 
mongo .connectTimeout=3000 

# 最 大 等 待 连接 的 线程 阻塞 时 间 

mongo .maxWaitTime=3000 
#mongo.maxWaitTime=4000 
mongo.socketKeepAlive-true 
socket 超时 。0 是 默认 和 无 限 

mongo .socketTimeout=3000 
#mongo .socketTimeout=6000 


(3) Spring MVC 集成 mongodb 的 配置 文件 mongodb.xml， 主 要 指定 mongodb 的 ip 


和 端口 、 初 始 化 MongodbTemplate、 进 行 mongodb 数据 库 Collection 与 实体 类 的 映射 扫 
描 等 。 需 要 注意 的 是 , 该 配置 文件 必须 在 Spring 核心 配置 文件 app-config.xml 通过 import 
标签 引入 。 有 具体 配置 如 下 : 


<?xml version="1.0" encoding="UTF-8"?> 
<beans xmlns="http://www.Springframework.org/schema/beans" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns: 
context="http: //www.Springframework.org/schema/context" 
xmlns:mongo-"http://www.Springframework.org/schema/data/mongo" 
xsi:schemaLocation="http: //www.Springframework.org/schema/context 
http://www. Springframework.org/schema/context/Spring-context- 
3:2-xsd 
http://www.Springframework.org/schema/data/mongo 
http://www.Springframework.org/schema/data/mongo/Spring- 
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mongo-1.0.xsd 
http: //www.Springframework.org/schema/beans 
http: //www.Springframework.org/schema/beans/Spring-beans- 
3.2.xsd"> 
<!-- 在 Spring 核心 配置 文件 中 扫描 mongodb 配置 文件 --> 
<mongo:mongo host="${mongo.host}" port="${mongo.port}" /> 
«1—- mongo 的 工厂 ,通过 它 来 取得 mongo 实例 , dbname 为 mongodb 的 数据 库 名 , 没有 
会 自动 创建 --> 
<mongo:db-factory dbname="storage" mongo-ref="mongo" /> 
<!-- mongodb 的 主要 操作 对 象 ,所 有 对 mongodb 的 增 、 删 \ 改 查 的 操作 都 是 通过 它 完成 --> 
<bean id="mongoTemplate" class="org.Springframework.data.mongodb. 
core.MongoTemplate"> 
<constructor-arg name="mongoDbFactory" ref="mongoDbFactory" /> 
</bean> 
<!-- 映射 转换 器 ,扫描 back-package 目录 下 的 文件 , 根据 注释 , 把 它们 作为 mongodb 
的 一 个 collection 的 映射 --> 
<mongo:mapping-converter base-package="com.cloud.storage.base. 
Domain" /> 
<context:annotation-config /> 
</beans> 


(4) 使 用 Spring Boot 集成 mongodb， 需 要 在 Spring Boot 的 核心 配置 文件 application. 
properties 中 添加 如 下 参数 : 
#username fil password 在 mongodb 开启 了 验证 后 需要 填写 , 否则 只 要 ip:port/db 即 可 
Spring.data.mongodb.uri=mongodb\://localhost\:27017/storage 


5.3.2 MongoTemplate 核心 类 实现 Dao RHO 


MongodbDao 自 定 义 封 装 类 ， 其 封装 了 对 MongoDB 的 一 些 常 用 操作 以 及 通过 泛 型 
来 完成 对 象 与 mongodb 的 colletion 之 间 的 转换 操作 ， 子 类 只 需要 指定 要 操作 哪个 实体 
类 即 可 。 代 码 实 现 如 下 : 


package com.cloud.storage.dao; 

import java.util.List; 

import org.apache.log4j.Logger; 

import org.Springframework.data.mongodb.core.MongoTemplate; 
import org.Springframework.data.mongodb.core.query.Query; 
import org.Springframework.data.mongodb.core.query.Update; 
import com.mongodb.DBCollection; 

/** 


* Spring mongodb 抽象 父 类 , 封装 一 些 常 用 的 方法 
* 

* @author changyaobin 

* 

* 


@param <T> 
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public abstract class MongodbBaseDao<T> { 
Logger log = Logger.getLogger (this.getClass()); 
// Spring mongodb 集成 操作 类 
protected MongoTemplate mongoTemplate; 
// 链接 本 地 数据 库 并 创建 数据 表 
public void CreateCollection(String collectionName) { 
try { 
log.info ("Collection created successfully"); 
} catch (Exception e) { 
System.err.println (e.getClass () .getName()+":" +e.getMessage ()); 


} 
11 获取 数据 表 
public DBCollection GetCollection(String collectionName) { 
DBCollection coll = null; 
try { 
coll = mongoTemplate.getCollection (collectionName) ; 
return coll; 
} catch (Exception e) { 
System.err.println (e.getClass () .getName ()+":"+e.getMessage ()) 
} 
return coll; 
} 
// 通过 条 件 查询 实体 (集合 ) 
public List<T> Listfind (Query query) { 
return mongoTemplate.find(query,this.getEntityClass()); 
} 
// 通过 一 定 的 条 件 查询 一 个 实体 
public T findone (Query query) { 
return (T)mongoTemplate.findOne (query, this.getEntityClass()); 
} 
// 通过 条 件 查询 更 新 数据 
public void update (Query query,Update update) { 
mongoTemplate.upsert (query, update, this.getEntityClass ()); 
} 
11 保存 一 个 对 象 到 mongodb 
public T save(T bean) { 
mongoTemplate.save (bean) ; 
return bean; 
} 
// 通过 ID 获取 记录 
public T get (String id) { 
return (T)mongoTemplate.findById (id, this.getEntityClass());7 
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// 通过 ID 获取 记录 , 并且 指定 了 集合 名 
public T get (String id,String collectionName) { 
return (T)mongoTemplate.findById (id, this.getEntityClass(), 
collectionName) ; 
} 
11 获取 需要 操作 的 实体 类 class 
protected abstract Class getEntityClass(); 
// Spring 容器 注入 mongodbTemplate 
protected abstract void setMongoTemplate (MongoTemplate mongoTemplate) ; 
} 


5.33 基于 MongoDB 处 理智 能 终端 运动 数据 


(1) 先 定义 一 个 映射 到 mongodb 数据 集合 的 类 SportsData， 通 过 注解 标签 @Document 
(collection = "SportsData") 实现 。 具 体 代码 如 下 : 


package com.cloud.storage.base.Domain; 


import java.io.Serializable; 

import java.util.List; 

import java.util.Map; 

import org.Springframework.data.mongodb.core.mapping.Document; 
/** 

* 运动 信息 数据 javaBean 


* 


* @author changyaobin 

* 

7 

@Document (collection = "SportsData") 

public class SportsData implements Serializable { 


private static final long serialVersionUID = 1L; 
private String appType; 
private String dataType; 
private String phone; 
private String collectDate; 
private List<Map<String, String>>dataValue; 
private String deviceID; 
private String sendFlag; 
private String company; 
private String teamName; 
private String pname; 
public String getAppType () { 
return appType; 
} 
public void setAppType (String appType) { 
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this.company = company; 


} 


public String getTeamName () { 
return teamName; 


} 


public void setTeamName (String teamName) { 
this.teamName = teamName; 


} 


public String getPname () { 
return pname; 


} 


public void setPname (String pname) { 
this.pname = pname; 


} 
} 


(2) 智能 终端 运动 数据 controller 层 CommonRestfulController， 用 于 接收 第 3 章 灵 
活 转 发 服务 发 送 来 的 智能 终端 运动 数据 。 在 第 4 章 已 经 提 到 ， 数 据 入 库 有 mysql, 
mongodb、hbase 3 种 方式 ， 故 我 们 采取 了 开关 的 方式 。 若 数据 入 mongodb 数据 库 ， 只 


多 改 SysConf.properties 文件 的 mongodb 属性 值 为 true 即 可 。 注 意 ， 一 定 要 添加 注解 


@Controller， 以 将 类 依赖 注入 容器 。 代 码 实现 如 下 : 


package com.cloud.storage.controller; 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 


* 238 * 


java.io.UnsupportedEncodingException; 
java.util.HashMap; 

java.util.Map; 

javax.servlet.http.HttpServletRequest; 
javax.servlet.http.HttpServletResponse; 
org.apache.log4j.Logger; 
org.Springframework.beans.factory.annotation.Autowired; 
org.Springframework.stereotype.Controller; 
org.Springframework.ui.ModelMap; 
org.Springframework.web.bind.annotation.PathVariable; 
org.Springframework.web.bind.annotation.RequestMapping; 
org.Springframework.web.bind.annotation.RequestMethod; 
com.cloud.storage.base.Domain.SportsData; 
com.cloud.storage.pattern.state.Context; 
com.cloud.storage.service.ObservationService; 
com.cloud.storage.service.PatientService; 
com.cloud.storage.service.SportsDataHbaseService; 
com.cloud.storage.service.SportsDataService; 
com.cloud.storage.util.DateUtil; 
com.cloud.storage.util.JsonUtil; 
com.cloud.storage.util.PropertiesReader; 
com.cloud.storage.util.ResponseUtil; 
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import com.cloud.storage.util.ValidateUtil; 
import net.sf.json.JSONObject; 

par 

* 数据 接收 接口 ,与 DispatchServer 转发 服务 进行 数据 对 接 


* 


* @author Changyaobin 
* 
= 
@Controller 
public class CommonRestfulController { 
@Autowired 
private ObservationService observationService; 
@Autowired 
private SportsDataService sportsDataService; 
@Autowired 
private SportsDataHbaseService sportsDataHbaseService; 
@Autowired 
private PatientService patientService; 
private static Logger log = Logger.getLogger (CommonRestfulController. 
class); 
/** 
* 数据 采集 接口 
* 
* @param request 
* @param response 
* @throws Exception 
t/ 
@SuppressWarnings ({"rawtypes", "unchecked"}) 
@RequestMapping (value = "/businessDataReceive") 
public void businessDataReceive (HttpServletRequest request, 
HttpServlet Response response) throws Exception { 
log.info("the start of businessDataReceive "); 
Map result = new HashMap (); 
log. info ("KEMX Dispatchserver 发 来 数据 * *... \r\n"); 
String jsonData = ""; 
try { 
jsonData = new String ( (request.getParameter ("data") .getBytes 
("iso-8859-1")),"UTF-8"); 
} catch (UnsupportedEncodingException e) { 
e.printStackTrace(); 
log.error ("receive data occur exception:" + e.getMessage()); 
} 
JSONObject jo = JSONObject.fromObject (jsonData) ; 
11 数据 参数 校 验 
String validateInfo = "" + ValidateUtil.checkAppType (JsonUtil. 
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get JsonParamterString (jo, "appType")) 
+ (ValidateUtil.isValid(JsonUtil.getJsonParamterString 
(jo, "dataType"))== true ? "":"false") 
+ ValidateUtil.checkDateTime (JsonUtil.getJsonParamterString 
(jo, "collectDate")) 
*(ValidateUtil.isValid(JsonUtil.getJsonParamterString(jo, 
"phone"))— true ? "":"false"); 
11 校 验 通过 
if("".equals (validateInfo)){ 
String isMongo = PropertiesReader.getProp ("mongodb") ; 
String isMysql = PropertiesReader.getProp ("mysql"); 
String isHbase = PropertiesReader.getProp ("hbase" 
System.out.println ("isMongo-- 
isMongo) ; 


Map<String, Class>classMap=new HashMap<>(); 


classMap.put ("dataValue", HashMap.class) ; 
// MP mongodbJSONObject 
SportsData sportsData =(SportsData) JSONObject . toBean (JSONObject . 
fromObject (jsonData), SportsData.class,classMap) ; 
if ("true".equals (isMongo) ) { 
// AFE mongodb 
sportsDataService.saveSportsData (sportsData) ; 
} else if ("true".equals (isMysql)) { 
// 入 库 mysql 
new Context (request, response, observationService, 
patient Service) .request (); 
} else if ("true".equals (isHbase) ) { 
// A Hbase 库 
SportsDataHbaseService.saveData (sportsData) ; 
} 
} else { 
response.setStatus (412); 
result.put ("status", "数据 验证 失败 !" + validateInfo) ; 
log.info("the end of businessDataReceive has invalidate param 
include " + validateInfo); 
} 
response.setStatus (200); 
ResponseUtil.writeInfo (response, JSONObject.fromObject (result). 
toString ()); 


} 


(3) 智能 终端 运动 数据 service 层 接口 SportsDataService, 定义 智能 终端 运动 数据 入 
mongodb 的 方法 ， 参 数 为 智能 终端 运动 数据 javabean。 代 码 实现 如 下 : 
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Sa RS SS 


package com.cloud.storage.service; 

import com.cloud.storage.base.Domain.SportsData; 
per 

* 智能 终端 运动 信息 的 service 层 


* 


* @author changyaobin 
* 


* 
public interface SportsDataService { 

/** 

* 智能 终端 运动 数据 保存 入 库 接口 

* 

* @param sportsData 

>/ 

public void saveSportsData (SportsData sportsData); 
} 


(4) 智能 终端 运动 数据 service 接口 实现 类 SportsDataServiceImpl, 主要 功能 是 调用 


dao 层 进行 入 库 操作 。 注 意 ， 一 定 要 添加 注解 @Service， 以 将 类 依赖 注入 容器 。 代 码 实 
现 如 下 : 


package com.cloud.storage.serviceImpl; 
import org.Springframework.beans.factory.annotation.Autowired; 
import org.Springframework.stereotype.Service; 
import com.cloud.storage.base.Domain.SportsData; 
import com.cloud.storage.dao.SportsDataMongoDao; 
import com.cloud.storage.service.SportsDataService; 
GService 
public class SportsDataServiceImpl implements SportsDataService { 
GAutowired 
private SportsDataMongoDao sportsDataMongoDao; 
GOverride 
public void saveSportsData (SportsData sportsData) { 
sportsDataMongoDao.saveOne (sportsData); 


} 
(5) 智能 终端 运动 数据 DAO 接口 SportsDataMongoDao, 定义 智能 终端 运动 数据 保 


存 入 库 方法 。 代 码 实 现 如 下 : 


package com.cloud.storage.dao; 


import com.cloud.storage.base.Domain.SportsData; 
USE 


* 智能 终端 运动 数据 dao 层 


* 
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* (author changyaobin 
* 


EN 

public interface SportsDataMongoDao { 
NER 
* 保存 智能 终端 运动 信息 数据 入 Mongodb 库 


* @param data 
qi 
public void saveOne(SportsData data); 
) 
(6) 智能 终端 运动 数据 DAO 接口 实现 类 SportsDataMongoDaoImpl， 主 要 功能 是 调 
用 父 类 方法 进行 入 库 操 作 。 注 意 ， 一 定 要 添加 注解 @Repository， 以 将 类 依赖 注入 容器 。 
代码 实现 如 下 : 


package com.cloud.storage.daoImpl; 
import org.Springframework.beans.factory.annotation.Autowired; 


import org.Springframework.beans.factory.annotation.Qualifier; 
import org.Springframework.data.mongodb.core.MongoTemplate; 
import org.Springframework.stereotype.Repository; 

import com.cloud.storage.base.Domain.SportsData; 

import com.cloud.storage.dao.SportsDataMongoDao; 

import com.cloud.storage.dao.MongodbBaseDao; 

/** 

* 智能 终端 运动 数据 Mongodb 的 dao 层 实 现 类 


* 


* @author changyaobin 
* 
t7 
GRepository 
public class SportsDataMongoDaoImpl extends MongodbBaseDao«SportsData» 
implements SportsDataMongoDao { 
// 通 知 父 类 该 dao 层 是 操作 哪个 实体 类 
GOverride 
protected Class getEntityClass () { 
return SportsData.class; 
} 
//M Spring 容器 中 取出 mongoTemplate 赋值 给 父 类 的 mongoTemplate 属性 
@Autowired 
GOverride 
protected void setMongoTemplate (@Qualifier ("mongoTemplate") 
Mongo Template mongoTemplate) { 
super.mongoTemplate = mongoTemplate; 
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@override 
public void saveOne (SportsData data) { 
this.save (data); 
} 
} 


(7) 同时 启动 高 并 发 采集 服务 、 灵 活 转发 服务 、Eureka 注册 中 心 (若是 Spring Boot 
服务 则 需要 开启 )， 然 后 启动 智能 终端 运动 模拟 端 发 送 数据 ， 本 服务 就 会 接收 到 灵活 转发 
服务 转发 的 数据 , 并 存储 到 mongodb 数据 库 的 SportsData 集合 中 , 测试 验证 结果 如 图 5-2 
所 示 。 


图 5-2 数据 入 mongodb 结果 


5.3.4 FEF MongoDB 管道 技术 处 理 体检 数据 


其 实 从 上 面 智能 终端 运动 数据 保存 可 以 看 出 ，MongoDB 对 单 表 的 操作 较为 简单 。 
但 是 对 于 大 部 分 商用 业务 来 说 ， 单 表 操 作 并 不 能 满足 复杂 的 业务 需求 。MongoDB 不 同 
于 传统 NoSql 数据 库 ， 其 从 3.0 以 上 版 本 就 开始 支持 多 表 关 联 查 询 。 而 在 本 章 中 ， 除 了 
智能 终端 运动 数据 ， 还 可 以 接收 用 户 体 检 数 据 ， 并 在 页 面 上 完成 展示 功能 ， 此 时 页 面 展 
示 就 需要 用 户 信 息 表 和 体检 信息 关联 查询 。 实 现 过 程 如 下 : 

CD 用 户 类 Patient, 定义 姓名 、 电 话 号 码 、 单位 部 门 等 基本 信息 , 同时 采用 @Document 
注解 来 完成 对 象 与 MongoDB 的 colletion 的 上 映射。 代码 实现 如 下 : 


package com.cloud.storage.base.Domain; 
import org.Springframework.data.annotation.Id; 


import org.Springframework.data.mongodb.core.mapping.Document; 
/** 


* 用 户 信息 JavaBean 
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(2) FAP! service 层 接口 定义 类 PatientService， 定 义 用 户 信息 入 mongodb 数据 库 的 
方法 。 代 码 实现 如 下 : 


(3) FAP service 层 接口 实现 类 PatientServiceImpl， 主 要 用 于 用 户 信息 mongodb Æ 
的 业务 实现 。 代 码 实 现 如 下 : 
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package com.cloud.storage.serviceImpl; 
import java.util.HashMap; 
import java.util.List; 
import org.Springframework.beans.factory.annotation.Autowired; 
import org.Springframework.stereotype.Service; 
import com.cloud.storage.base.Domain.Patient; 
import com.cloud.storage.dao.PatientMongoDao; 
import com.cloud.storage.daoImpl.JdbcDaoImpl; 
import com.cloud.storage.service.PatientService; 
GService 
public class PatientServiceImpl implements PatientService ( 
GAutowired 
private PatientMongoDao patientMongoDao; 
@override 
public void savePatient2Mongo (Patient patient) { 
patientMongoDao. savePatient (patient); 


} 
(4) 用 户 信 息 入 mongodb 库 的 dao 层 接口 ， 定 义 入 库 方 法 。 代 码 实 现 如 下 : 


package com.cloud.storage.dao; 

import com.cloud.storage.base.Domain.Patient; 
/** 

* 用 户 的 Dao 层 


* 


* @author changyaobin 
* 
7. 
public interface PatientMongoDao { 
void savePatient (Patient patient); 
} 


(5) 用 户 信息 入 mongodb 库 的 dao 层 接 口 实现 类 ， 完 成 用 户 信 息 入 库 。 代 码 实现 


如 下 : 


package com.cloud.storage.daoImpl; 

import org.Springframework.beans.factory.annotation.Autowired; 
import org.Springframework.beans.factory.annotation.Qualifier; 
import org.Springframework.data.mongodb.core.MongoTemplate; 
import org.Springframework.stereotype.Repository; 

import com.cloud.storage.base.Domain.Patient; 

import com.cloud.storage.dao.MongodbBaseDao; 

import com.cloud.storage.dao.PatientMongoDao; 

/** 


* 用 户 信息 dao 层 实现 类 (用 于 操作 Mongodb) 
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(6) 体检 信息 类 PhysicalCheckData， 定 义 了 体检 的 一 些 基本 特征 属性 ， 并 采用 
@Document 完成 实体 与 collection 映射 ， 其 中 常规 检查 和 内 科 等 属于 顽 套 类 ， 定 义 在 体 
检 信 息 类 中 。 代 码 实现 如 下 : 
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} 
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private String heartRateAnalysis; 


CD 在 体检 数据 的 controller 层 接 口 类 PhysicalCheckDataController 中 ,定义 了 体检 
信息 接收 、 通 过 用 户 id 查询 体检 信息 、 体 检 信 息 测试 入 库 等 接口 。 代 码 实现 如 下 : 


package com.cloud.storage.controller; 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
/** 


java.util.HashMap; 

java.util.Map; 

org.apache.commons.lang.StringUtils; 
org.Springframework.beans.factory.annotation.Autowired; 
org.Springframework.web.bind.annotation.RequestMapping; 
org.Springframework.web.bind.annotation.ResponseBody; 
org.Springframework.web.bind.annotation.RestController; 
com.cloud.storage.base.Domain.Message; 
com.cloud.storage.base.Domain.Patient; 
com.cloud.storage.base.Domain.PhysicalCheckData; 
com.cloud.storage.base.Domain.PhysicalCheckData.GeneralProjecr; 
com.cloud.storage.base.Domain.PhysicalCheckData.Medical; 
com.cloud.storage.base.Domain.PhysicalCheckData.RoutineBlood; 
com.cloud.storage.base.Domain.PhysicalCheckData.Surgery; 
com.cloud.storage.service.PatientService; 
com.cloud.storage.service.PhysicalCheckDataService; 
net.sf.json.JSONObject; 


* 体检 信息 Controller 层 


* 


* @author Changyaobin 


* 


it 


GRestController 


public 


class PhysicalCheckDataController ( 


GAutowired 


private PhysicalCheckDataService physicalCheckDataService; 


GAutowired 


private PatientService patientService; 
@RequestMapping ("receivePhyCheckData") 


public Message receivePhyCheckData (String data) { 


Message message = new Message(); 
if(StringUtils.isNotBlank (data) ) { 
try { 
PhysicalCheckData physicalCheckData =(com.cloud.storage. 
base. Domain. PhysicalCheckData) JSONObject . toBean 
(JSONObject . fromObject (data) , Physical CheckData.class) ; 
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. 
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if (physicalCheckData != null) { 
if (physicalCheckData.getPatientId() != null 
|| StringUtils.isBlank (physicalCheckData. 
getCheckNum() )) { 
message .setCode (10002) ; 
message.setMessage("miss import params") ; 
} else { 
message = physicalCheckDataService. 
savePhyCheck Data (physicalCheckData) ; 
message .setCode (10000); 
message . setMessage (" 数 据 处 理 成 功 ") ; 


} 
} catch (Exception e){ 
message.setCode (10001); 
message.setMessage (" 参 数 非法 ") ; 
} 
} else { 
// 业务 状态 10001 非法 参数 
message.setCode (10001); 
message.setMessage ("参数 非法 "); 
} 
return message; 
} 
@RequestMapping (value="getPhyCheckDataByUserId",produces = 
"application/json;charset=utf-8") 
@ResponseBody 
public String getPhyCheckDataByUserId (Integer userId) { 
Map<String,Object> reslut = new HashMap<String, Object> (); 
if (userId != null) { 
reslut = physicalCheckDataService.getPhyCheckDataByUserId 
(userId); 
} 
return JSONObject.fromObject (reslut) .toString(); 
} 
@RequestMapping ("test") 
public void seceivePhyCheckData() { 
PhysicalCheckData physicalCheckData = new PhysicalCheckData (); 
physicalCheckData.setCheckNum ("201803204124154"); 
physicalCheckData.setPatientId(1000); 
// 常规 项 目 检查 
GeneralProjecr generalProjecr = new GeneralProjecr(); 
generalProjecr.setHeight (173.0); 
generalProjecr.setWeight (91.0); 
generalProjecr.setBMI (30.4); 
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// 收缩 压 
generalProjecr.setSystolicPressure (138); 
generalProjecr.setRemark ("体重 指数 增高 腰围 增 大 ") ; 
generalProjecr.setWaistline (80); 
11 WR 
Medical medical = new Medical (); 
medical.setMedicalHistory("X"); 
medical.setFamilyHistory ("E"); 
medical.setHeartSounds ("IET"); 
medical.setHeartRate (72); 
medical.setHeartRhythm ("FF"); 
11 肾脏 吨 诊 
medical.setKidney(" 双 肾 区 无 扣 痛 ") ; 
medical. setRemark(" 未 见 明显 异常 ") ; 
// 血 常 规 
RoutineBlood routineBlood = new RoutineBlood(); 
routineBlood.setHb (154.0); 
routineBlood.setHCT (44.80); 
routineBlood.setLYMPH (32.8); 
routineBlood.setLYMPHValue (2.3); 
routineBlood.setMON (8.4); 
routineBlood.setMONValue (0.6); 
routineBlood.setPLT (291.0); 
routineBlood.setRBC (5.69); 
routineBlood.setWBC (7.0); 
11 外科 
Surgery surgery = new Surgery(); 
surgery.setAnus ("未 见 明显 异常 "); 
surgery.setLymphGland (" 颈 部 、 锁 骨 上 、 腋 窝 及 腹股沟 未 见 明 显 异 常 ") ; 
surgery.setExtremitiesJoint ("未 见 明显 异常 "); 
surgery.setOther (" 未 见 明 显 异 常 ") ; 
surgery.setSkin ("未 见 明 显 异 常 "); 
surgery.setRemark ("未 见 明 显 异 常 "); 
surgery.setSpine ("未 见 明 显 异 常 "); 
surgery.setProstate ("未 见 明显 异常 "); 
physicalCheckData.setGeneralProjecr (generalProjecr); 
physicalCheckData.setMedical (medical); 
physicalCheckData.setRoutineBlood (routineBlood) ; 
physicalCheckData.setSurgery (surgery); 
physicalCheckDataService.savePhyCheckData (physicalCheckData); 
} 
@RequestMapping ("insertPatient") 
public void insertPatient () { 
Patient patient = new Patient(); 
patient.setAge ("37"); 
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(8) 在 体检 信息 的 service 层 接 口 类 PhysicalCheckDataService 中 ， 定 义 了 体检 信息 
入 库 和 通过 用 户 id 查询 体检 信息 的 方法 。 代 码 实现 如 下 : 
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(9) 在 体检 信息 Service 层 接口 实现 类 PhysicalCheckDataServiceImpl 中 ， 完 成 体检 
信息 入 mongodb 以 及 查询 等 功能 实现 。 代 码 实现 如 下 : 


package com.cloud.storage.serviceImpl; 
import java.util.HashMap; 
import java.util.Map; 
import org.Springframework.beans.factory.annotation.Autowired; 
import org.Springframework.stereotype.Service; 
import com.cloud.storage.base.Domain.Message; 
import com.cloud.storage.base.Domain.PhysicalCheckData; 
import com.cloud.storage.dao.PhysicalCheckMongoDao; 
import com.cloud.storage.service.PhysicalCheckDataService; 
GService 
public class PhysicalCheckDataServiceImpl implements 
PhysicalCheckData Service ( 
GAutowired 
private PhysicalCheckMongoDao phyCheckDao; 
@override 
public Message savePhyCheckData (PhysicalCheckData physicalCheck Data) { 
Message message = new Message(); 
try { 
phyCheckDao. savePhyCheckData (physicalCheckData) ; 
message. setCode (1000); 
message.setMessage (" 数 据 处 理 成 功 ") ; 
} catch (Exception e) { 
e.printStackTrace (); 
message.setCode (10003); 
message. setMessage ("数据 处 理 失 败 ") ; 
} 
return message; 
} 
GOverride 
public Map<String,Object> getPhyCheckDataByUserId (Integer userId)( 
Map<String,Object> result = new HashMap<String, Object> (); 
if (userId != null) { 
result = phyCheckDao.getPhyCheckDataByUserId (userId); 
} 
return result; 


} 


(10) 体检 信息 dao 层 接口 PhysicalCheckMongoDao， 定 义 了 体检 信息 入 库 以 及 查 
询 方法 。 代 码 实现 如 下 : 


è 2615 


. 
天 数据 架构 之 道 与 项 目 实 成 了 


package com.cloud.storage.dao; 

import java.util.Map; 

import com.cloud.storage.base.Domain.PhysicalCheckData; 

Es 

* 体检 信息 的 dao 层 接口 

* 

* (author changyaobin 

* 

t7 

public interface PhysicalCheckMongoDao ( 
/** 


* 保存 体检 信息 

* 

* @param physicalCheckData 

all 
public void savePhyCheckData (PhysicalCheckData physicalCheckData) ; 
/** 

* 根据 用 户 ia 查询 其 体检 信息 

* 

* @param userId 

* @return 

e 
public Map<String,Object> getPhyCheckDataByUserId (Integer userId); 

) 


C11) 在 体检 信息 dao 层 接口 实现 类 PhysicalCheckMongoDaoImpl 中 ， 通 过 
mongodbTemplate 操作 管道 ， 完 成 体检 信息 入 库 以 及 查询 功能 。 代 码 实现 如 下 : 


package com.cloud.storage.daoImpl; 

import java.util.ArrayList; 

import java.util.List; 

import java.util.Map; 

import org.Springframework.beans.factory.annotation.Autowired; 

import org.Springframework.beans.factory.annotation.Qualifier; 

import org.Springframework.data.mongodb.core.MongoTemplate; 

import org.Springframework.data.mongodb.core.aggregation.Aggregation; 

import org.Springframework.data.mongodb.core.aggregation. 
AggregationOperation; 

import org.Springframework.data .mongodb.core.aggregation.AggregationResults; 

import org.Springframework.data.mongodb.core.aggregation.TypedAggregation; 

import org.Springframework.data.mongodb.core.query.Criteria; 

import org.Springframework.stereotype.Repository; 

import com.cloud.storage.base.Domain.PhysicalCheckData; 

import com.cloud.storage.dao.MongodbBaseDao; 

import com.cloud.storage.dao.PhysicalCheckMongoDao; 

import com.mongodb.BasicDBObject; 
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VER 
* 体检 信息 dao 层 接口 实现 类 (用 于 操作 Mongodb) 


* 


* @author changyaobin 
* 
= 
@Repository 
public class PhysicalCheckMongoDaoImpl extends MongodbBaseDao 
<Physical CheckData> implements PhysicalCheckMongoDao { 
@override 
protected Class getEntityClass () { 
return PhysicalCheckData.class; 
} 
@Autowired 
@Override 
protected void setMongoTemplate (@Qualifier ("mongoTemplate") 
Mongo Template mongoTemplate) { 
super.mongoTemplate = mongoTemplate; 
} 
@override 
public void savePhyCheckData (PhysicalCheckData physicalCheckData) { 
super. save (physicalCheckData) ; 
} 
GOverride 
public Map<String, Object> getPhyCheckDataByUserId (Integer userId)( 
// mongodb 管道 操作 
List«AggregationOperation» aggOperations - new ArrayList 
<AggregationOperation>(); 
// 管道 match 过 滤 
aggOperations.add (TypedAggregation.match (Criteria.where 
("patientId") .is (userId) )); 
11 表 关 联 查 询 用 户 的 信息 
aggOperations.add (TypedAggregation.lookup ("patient", "patientId", 
" id","patientInfo")); 
// ME Lookup 后 的 用 户 数 组 信息 
aggOperations.add (TypedAggregation.unwind ("patientInfo", true)); 


Aggregation agg = Aggregation.newAggregation (aggOperations); 
// 执行 管道 查询 
AggregationResults<BasicDBObject> aggregate = mongoTemplate. 
aggregate (agg, PhysicalCheckData.class, BasicDBObject.class) ; 
List<BasicDBObject> mappedResults = aggregate.getMappedResults(); 
if (mappedResults != null && mappedResults.size()> 0) { 
return mappedResults.get (0); 
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} 
return null; 


} 
5.3.5 基于 AngularJS 架构 可 视 化 体检 数据 


1. AngularJS 基本 原理 分 析 

AngularJS 诞生 于 2009 年 , 由 Misko Hevery 等 人 创建 , 现在 已 经 成 为 Google 公司 
的 旗舰 产品 之 一 。 它 是 一 款 优 秀 的 前 端 JS 框架 ， 有 着 诸多 特性 ， 最 为 核心 的 技术 是 
MVC、 模 块 化 、 自 动 化 双向 数据 绑 定 、 语 义 化 标签 、 依 赖 注入 等 。AngularJS 通过 指令 
技术 对 传统 HTML 实现 了 自然 扩展 ， 通 过 编译 技术 实现 了 数据 模型 与 展现 视图 的 双向 
自动 同步 ， 从 而 消除 了 前 端 开 发 中 烦琐 复杂 的 DOM 操作 ， 通 过 模块 化 设计 解决 了 JS 
代码 管理 维护 和 按 需 加 载 的 问题 ， 提 升 了 前 端 程序 员 的 高 效 开发 能 力 。 

Hop, MVC 模式 包含 模型 Model、 视 图 View、 控 制 器 Controller 3 个 部 分 。 模 型 
Model 是 用 于 显示 给 用 户 并 且 与 用 户 互动 的 数据 ， 视 图 View 表示 用 户 看 到 的 DOM 元 
素 ， 控 制 器 Controller 表示 技术 业务 逻辑 。 背 后 的 业务 逻辑 用 于 显示 给 用 户 并 且 与 用 户 
互动 的 数据 的 优点 很 多 , 一 是 职责 清晰 : 让 复杂 代码 逻辑 按 不 同 的 职责 拆 解 成 3 个 不 同 
的 部 分 ,每 一 部 分 的 职责 和 功能 都 独立 ; 二 是 代码 分 层 模块 化 : 我 们 知道 将 一 个 系统 按 
业务 功能 竖 向 划分 ， 就 产生 了 不 同 的 业务 模块 ; 三 是 耦合 性 低 : 将 项 目 代码 结构 拆 解 到 
非常 小 的 粒度 以 后 ， 各 个 小 的 模块 结构 间 依 赖 性 降低 ; 四 是 可 重用 性 高 : 每 个 模块 独立 
出 来 以 后 ， 抽 象 性 更 高 ， 复 用 的 可 能 性 就 更 高 ; 五 是 可 维护 性 高 : 业务 发 生变 更 时 影响 
的 范围 最 小 ， 方 便 维 护 ; 六 研发 成 本 低 : UI 和 逻辑 都 相对 复杂 的 情况 下 ，MVC 模式 能 
明显 地 降低 研发 成 本 。 

2. 体检 报告 的 前 端 代 码 结构 

体检 报告 主页 面 是 report_review.html, 依赖 angularmin.js〈 本 章 源码 文件 夹 提 供 )、 
JQuery-1.10.1.min.js (本 章 源码 文件 夹 提供 )、report.js 等 文件 ， 通 过 html 和 angular 相 
关 代码 完成 体检 报告 展示 。 代 码 实现 如 下 : 


<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> 
<html> 

<head> 

<title> 健 康 体检 报告 </title> 

<meta http-equiv="pragma" content="no-cache"> 

<meta http-equiv="cache-control" content="no-cache"> 

<meta http-equiv="expires" content="0"> 

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8"> 
<meta http-equiv="keywords" content="keywordl,keyword2,keyword3"> 
<meta http-equiv="description" content="This is my page"> 
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<style type="text/css"> 
body, title,td,th, input { 
font-size:16px; 
text-align:center; 
} 
</style> 
<style type="text/css"> 
body { 
font-size:16px; 
text-align:left; 
5 
«/style» 
<script src="js/angular.min.js"></script> 
<script src="js/JQuery-1.10.1.min.js"></script> 
<script src="js/report.js"></script> 
</head> 
<body> 
<div ng-app="myApp" ng-controller-"ReportReviewCtrl"» 
<h3 id="error" 
style="margin-left:200px;margin-top:100px;display:none; "> 
标注 操作 未 完成 , 所 以 无 法 计算 得 到 监测 报告 ,请 继续 完成 标注 并 上 传 完整 
的 标注 结果 </h3> 
<div id="report" style="display:none;"> 
«hl align="center"> 健 康 体检 报告 </h1> 
<p align="center" font-family: "微软 雅 黑 "; font-weight:bolder;"> 
基本 信息 </p> 
<table cellspacing="0" border="1px" style="border-collapse: 
collapse" 
bordercolor="#000000" cellspacing="1" cellpadding="7" 
width="50%" 
align="center"> 
<tr bgcolor=#FFFFFF> 
<td colspan="2"> 体 检 编号 : {{result._id}}</td> 
«td colspan="2"> 体 检 日 期 :{{result.checkDatelj</td> 
</tr> 
<tr bgcolor=#FFEFFF> 
«td width="220px">#¥ : ((result.patientInfo.name)) 
</td> 
<tqd> 性 别 : ((result.patientInfo.sex))«/td» 
«td colspan="2"> 年 龄 :{ {result .patientInfo.age}} </td> 
</tr> 
<tr bgcolor=#FFFFFF> 
<td width="220px"> 单 位 : {{result.patientInfo.unit}} 
</td> 
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<td> 部 门 : { {result .patientInfo.dept}}</td> 
<td colspan="2"> 联 系 电话 : { {result .patientInfo.phone}} 
</td> 
</tr> 
</table> 
<p align="center"font-family: "MAIER" ; font-weight :bold; "> 
常规 项 目 </p> 
<table cellspacing=0 border="1px" style="border-collapse: 
collapse" 
bordercolor="#000000" cellspacing=1 cellpadding=7 
width=50% 
align="center"> 
<tr bgcolor=#FFFFFF> 
<td> 身 高 :{ {result .generalProjecr.height}} (cm) </td> 
<td> 体 重 : { {result .generalProjecr.weight}}</td> 
<td> 体 重 指数 : { {result .generalProjecr.BMI}}</td> 
<td> 腰 围 : ((result.generalProjecr.waistline))</td> 
</tr> 
<tr bgcolor=#FFFFFF> 
<td colspan="2"> 收 缩 压 : { (result.generalProjecr. 
systolicPressure))</td> 
<td colspan-"2"»$f3KJR:((result.generalProjecr. 
diastolicPressure))</td> 
</tr> 
<tr bgcolor=#FFFFFF> 
<td colspan="4"> 初 步 意见 : ((result.generalProjecr. 
remark))</td> 
</tr> 
</table> 
<p align="center"font-family: "WEHEN"; font-weight :bold; "> 
内 科 </p> 
<table cellspacing=0 border="1px" style="border-collapse: 
collapse" 
bordercolor="#000000" cellspacing-1 cellpadding=7 width=50% 
align="center"> 
«tr bgcolor=#FFEFFF> 
<td width="200"> 病 史 : ( (result.medical. 
medicalHistory}}</td> 
<td wiqdth="200"> 家 族 史 : { {result .medical. 
familyHistory))</td> 
«td width-"200"»4»ff: { {result .medical. 
heartRhythm} }</td> 
«td width="200"> 心 音 : {{result.medical. 
heartSounds} }</td> 
</tr> 
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<tr bgcolor=#FFFFFF> 
<td> 肺 部 听诊 : { {result .medical.lungsAuscultation}} 
</td> 
<td> 肝 脏 听 诊 :{ {result .medical.liverAuscultation}} 
</td> 
<td>: { {result .medical.heartRate}}</td> 
<td> HÈ: { {result .medical. kidney} }</td> 
</tr> 
<tr bgcolor=#FFFFFF> 
<td colspan="4"> 初 步 意见 : {{result.medical.remark}} 
</td> 
</tr> 
</table> 
<p align="center" font-family: "MAHER" ; font-weight :bold; "> 
外 科 </p> 
<table cellspacing=0 border="1px" style="border-collapse: 
collapse" 
bordercolor="#000000" cellspacing=1 cellpadding=7 
width=50% 
align="center"> 
<tr bgcolor=#FFFFFF> 
«td width="200"> 淋 巴结 :{ {result.surgery.lymphGland}} 
</td> 
«td width="200"> 皮 肤 : {{result.surgery.skin}}</td> 
<td width="200"> RR: {{result.surgery.thyroid}} 
</td> 
<td width="200">###: ((result.surgery.spine))</td> 
</tr> 
«tr bgcolor=#FFFFFF> 
<td> 四 肢 关节 : ((result.surgery.extremitiesJoint)) 
</td> 
<td> 前 列 腺 : { {result.surgery.prostate}}</td> 
<td> 肛 门 :{ {result.surgery.anus} }</td> 
<td> 外 科 其 他 : { (result .surgery.other))</td> 
</tr> 
«tr bgcolor=#FFEFFF> 
«td colspan="4"> 初 步 意见 : ((result.surgery.remark)) 
</td> 
</tr> 
</table> 
<p align="center"font-family: "MAHER" ; font-weight :bold; "> 
血 常规 </p> 
<table cellspacing=0 border="1px" style="border-collapse: 
collapse" 
bordercolor="#000000" cellspacing=1 cellpadding=7 width= 
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50% 
align="center"> 
<tr bgcolor=#FFFFFF> 
<td width="200"> 白 细胞 计数 :{{result.routineBlood. 
WBC} }</td> 
«td width="200"> 淋 巴 细胞 百分比 : { {result .routineBlood. 
LYMPH} }%</td> 
<td width="200"> 中 间 细 胞 百分比 : ((result.routineBlood. 
MON} }%</td> 
<td width="200"> 淋 巴 细胞 绝对 值 : ((result.routineBlood. 
LYMPHValue} }</td> 
</tr> 
<tr bgcolor=#FFFFFF> 
<td> 中 间 细 胞 绝对 值 :{{result.routineBlood . 
MONValue}}</td> 
<td> 红 细胞 计数 : { {result . rout ineBlood.RBC} }</td> 
<td> 血 红 和 蛋白: { {result .routineBlood.Hb}}</td> 
<td> 红 细胞 压 积 : ( (result .routineBlood.HCT))</td> 
</tr> 
<tr bgcolor=#FFFFFF> 
<td colspan="4"> 初 步 意见 : { {result .routineBlood. 
remark))</td> 
</tr> 
</table> 
</div> 
</div> 
</body> 
</html> 


3. Angular 核心 概念 和 技术 实现 

作用 域 Scope, 用 来 存储 模型 Model 的 语 境 context. 模型 放 在 这 个 语 境 中 才能 被 控 
制 器 、 指 令 和 表达 式 等 访问 到 。 双 向 数据 绑 定 就 是 自动 同步 模型 Model 中 的 数据 和 视 
图 View 表现 ，Angular 的 实现 方式 允许 把 应 用 中 的 模型 看 成 单一 数据 源 。 而 视图 始终 
是 数据 模型 的 一 种 展现 形式 。 当 模型 改变 时 ， 视 图 就 能 反映 这 种 改变 。 依 赖 注 入 就 是 负 
责 创建 和 自动 装载 对 象 或 函数 。 体 检 报 告 js 代码 reportjs， 主 要 用 于 发 送 请 求 给 后 台 查 
询 出 体检 信息 ， 并 调用 作用 域 Scope 给 页 面 赋 值 ， 完 成 信息 展示 。 代 码 实现 如 下 : 

var app = angular.module ('myApp', [1); 

app.config(['$locationProvider',function($locationProvider)( 

$locationProvider.html5Mode (true); 
mm; 


app.controller ('ReportReviewCtrl1', function ($scope, $location, $http, 
$rootScope) { 


var param = $location.search(); 
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param.userId = 1000; 


$http.post ("../BD StorageServer Maven/getPhyCheckDataByUserId? 
userId="+param.userId) .success (function (response) { 
if (response.status) { 


//$scope.showError = true; 
$ ("ferror").css ("display","block"); 
jelse{ 
$scope.result = eval (response); 
$scope.showResult = true; 
$("#report") .css("display", "block") ; 


y; 
Di 


4. 体检 报告 展示 效果 (如 图 5-3 所 示 ) 


健康 体验 报告 

基本 信息 
体检 编号 :201803204124154 
单位 :华为 部 门 : 云 平台 联系 电话 : 131*****120 

常规 项 目 


初步 意见 ， 体重 指数 增高 ”腰围 增 大 


病史 : 无 家 族 史 : 无 特殊 
肺 部 听诊 : 肝脏 听诊 : 
初步 意见 : 未 见 明显 异常 


心音 : 正常 


肾脏 吨 诊 : 双 肾 区 无 邑 痛 


MULA. HU. 锁骨 上 、 M "mm eem 
及 腹股沟 未 见 明显 异 党 i ee RER 
让 关节 ， 未 见 明显 异常 
初步 意见 :未 见 明显 异常 


前 列 腺 : 未 见 明显 异常 | 肛门 : 未 见 明显 异常 | 外 科 其 他 ; 未 见 明显 异常 


血 常规 


白细胞 计数 : 7 淋巴 细胞 百分比 : 32.8% | 中 间 细 胞 百分比 : 8.4% | 淋巴 细胞 绝对 值 : 2.3 


中 间 细 胞 绝对 值 : 0.6 | 红细胞 计数 : 5.69 红细胞 压 积 : 44.8 


图 5-3 体检 报告 可 视 化 展示 
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5.4 项 目 小 结 


1. 掌握 Spring MVC 以 及 Spring Boot 集成 mongodb 两 种 配置 方式 

无 论 Spring MVC 还 是 Spring Boot 对 mongodb 集成 ， 其 实 都 是 等 价 于 对 
mongoTemplate 的 集成 。 在 Spring MVC 中 , 是 通过 xml 文件 以 及 mongodb 的 参数 来 完 
成 集成 的 .对 于 Spring Boot, 为 了 简化 开发 ,只 需要 在 Spring Boot 的 核心 配置 文件 application 
properties 中 配置 mongodb 的 相关 参数 即 可 。 

2. 掌握 Spring MVC 集成 mongodb 后 常用 注解 

(1) (Document (collection=" ") 用 于 声明 该 类 与 mongodb 库 的 collection 进行 
映射， 括号 里 的 字符 串 参 数 即 为 collection 名 称 ， 例 如 @Document (collection = 
"SportsData" ) 。 

(2) @Id 用 于 声明 该 字段 作为 mongodb 的 主键 。 

(3) @Indexed 用 于 在 mongodb 数据 库 中 给 该 字段 建立 索引 。 

(4) @RequestMapping (value = "/businessDataReceive") 表 请 求 URL 注解 ， 调 用 
这 个 接口 的 方式 就 是 http: //localhost: 8080/BD_StorageServer Maven/businessData Receive. 

(5) @Controller 表示 Controller 层 接口 的 注解 ， 说 明 注 入 Spring 中 ， 相 当 于 创建 
一 个 类 。 

(6) @Service 表示 Service 层 接 口 的 注解 ， 说 明 注入 Spring 中 ， 相 当 于 创建 一 个 类 。 

(7) @Repository 表示 Dao 层 接口 的 注解 ， 说 明 注入 Spring 中 ， 相 当 于 创建 一 个 类 。 

3. Mongodb 管道 高 级 查询 

Mongodb 的 管道 主要 是 为 了 满足 复杂 的 业务 应 用 而 生 的 。 其 实 ，Mongodb 管道 语 
法 和 mysql 相似 ， 只 需要 掌握 lookup. group. project, unwind, skip. limit 等 常用 管道 
操作 符 用 法 即 可 。 对 于 lookup 来 说 ， 通 过 指定 关联 的 字段 来 完成 表 关联 查询 。group 用 
来 做 分 组 聚合 使 用 ， 一 般 搭 配 sum 等 聚合 函数 使 用 。project 用 于 查询 指定 字段 以 及 字 
段 的 重 命名 等 。unwind 用 于 将 数组 类 型 数据 切割 。skip 用 于 指定 跳 过 多 少 条 数据 ， 一 
般 与 limit 组 合 使 用 完成 分 页 功能 。 

4. 熟悉 AngularJS 调用 后 台 的 接口 的 方法 

“Shttp.post (url) .success (function (response) {...})”。 
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架构 之 道 分 享 之 六 : 孙子 兵法 的 《 势 篇 》 提出 了 优秀 将 领 运用 各 种 谋略 和 手段 创 
造 优势 的 动态 作战 思想 。 优 秀 的 架构 师 着 重 关注 产品 的 商用 性 能 指标 ， 包 括 高 可 靠 、 
高 可 扩展 、 高 伸缩 等 互联 网 微 架构 设计 ， 让 系统 真正 实现 在 线 升级 和 高 效 演进 。 


* 掌握 Hbase 的 工作 原理 和 核心 技术 
* 掌握 基于 Spring Boot 和 Spring 对 Hbase 集成 实现 
* 掌握 Hbase 的 模板 类 实现 统一 数据 操作 接口 


6.1 核心 需求 分 析 和 优秀 解决 方案 


随 着 移动 设备 和 物 联网 平台 的 普及 , 产生 了 大 量 的 异 构 多 源 数据 。 如 何 让 数据 应 用 
满足 3 个 需求 : 一 是 离线 数据 分 析 ; 二 是 实时 的 数据 处 理 和 并 行 计算 ; 三 是 高 并 发 、 高 
可 靠 、 低 延迟 。 离 线 数 据 分 析 常 用 的 底层 框架 就 是 基于 HDFS 文件 系统 的 Hadoop 
MapReduce， 上 层 引 擎 工具 就 是 HBase、Hive、Sqoop。HBase 在 2008 年 成 为 Apache 
的 开源 子 项 目 ，2010 年 成 为 Apache 顶级 项 目 ，HBase 凭借 列 式 存储 和 缓存 机 制 大 大 提 
升 了 数据 表 的 操作 效率 , 成 为 迄今 为 止 在 体系 架构 和 数据 模型 都 非常 创新 的 优秀 产品 之 
一 。 接 下 来 我 们 熟悉 HBase 产品 ， 并 将 它 应 用 到 对 智能 终端 运动 数据 的 高 效 处 理 上 。 


62 ”服务 引擎 的 技术 架构 设计 


海量 存储 和 并 行 计算 服务 引擎 包括 5 个 核心 模块 ， 如 图 6-1 所 示 ， 每 一 个 模块 要 考 
虑 可 扩展 性 和 高 性 能 两 个 关键 因素 ， 具 体 说 明 如 下 。 

CD 核心 模块 一 : Spring 框架 和 Hbase 集群 集成 , 包括 Spring Boot 微 架 构 的 实现 
方式 。 

(2) 核心 模块 二 : HbaseTemplate 类 的 配置 和 实现 ， 核 心 配 置 文件 hbase-site .xml 
配置 实现 集群 操作 方式 ，HbaseConifg 配置 方式 实现 HbaseTemplate 方式 操作 Hbase 
数据 库 。 

3) 核心 模块 三 : 提供 智能 终端 运动 数据 的 Controller 接口 ， 用 于 接收 转发 服务 转 
发 过 来 的 智能 终端 运动 数据 。 

(4) 核心 模块 四 : 提供 Hbase 集群 的 智能 终端 运动 数据 Service 接口 ， 调 用 dao 层 接 
口 保存 智能 终端 运动 数据 入 hbase 库 ， 以 及 将 智能 终端 运动 数据 写 入 日 志文 件 中 ， 供 
flume 监控 使 用 。 
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C5) 核心 模块 五 : 提供 了 Hbase 集群 的 dao 层 接口 , 实现 了 添加 智能 终端 运动 数据 
以 及 根据 hquery 对 象 查询 智能 终端 运动 数据 。 
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图 6-1 大 数据 高 可 靠 海量 存储 服务 模块 化 设计 


6.3 ”核心 技术 讲解 及 模块 化 实现 


HBase 属于 存储 层 , 是 一 个 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 存储 系统 ， 
可 在 廉价 PC Server 上 搭建 起 大 规模 结构 化 存储 集群 。Hbase 依托 于 很 多 框架 和 工具 。 
其 中 ,Hadoop HDFS 为 HBase 提供 了 高 可 靠 性 的 底层 存储 支持 ，Hadoop MapReduce 
为 HBase 提供 了 高 性 能 的 计算 能 力 ，ZooKeeper 为 HBase 提供 了 稳定 服务 和 failover 机 
制 。Pig 和 Hive 还 为 HBase 提供 了 高 层 语言 支持 ， 使 得 在 HBase 上 进行 数据 统计 处 理 
简单 快捷 。Sqoop 为 HBase 提供 了 方便 的 RDBMS 数据 导入 功能 , 使 得 传统 数据 库 数据 
向 HBase 中 迁移 更 灵活 。 

HBase 的 Client 客户 端 借助 HBase 的 RPC 机 制 与 HMaster 和 HRegionServer 进行 
通信 ，ZooKeeper Quorum 中 除了 存储 -ROOT- 表 的 地 址 和 HMaster 的 地 址 ，HRegionServer 
也 注册 到 ZooKeeper 中 ， 使 得 HMaster 可 以 随时 感知 到 各 个 HRegionServer 的 存活 状态 。 
HMaster 解决 了 单 点 故障 问题 ，HBase 中 可 以 启动 多 个 HMaster， 通 过 ZooKeeper 的 
Master Election 机 制 保证 总 有 一 个 Master 运行 ，HMaster 在 功能 上 主要 负责 Table 和 
Region 的 管理 工作 ,包括 管理 用 户 对 Table 的 增 、 删 、 改 、 查 操作 ,管理 HRegionServer 
的 负载 均衡 ,调整 Region 分 布 ,在 Region Split 后 负责 新 Region 的 分 配 ,在 HRegionServer 
停机 后 负责 失效 HRegionServer 上 的 Regions 迁移 。 
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HRegionServer 职责 是 负责 响应 用 户 IO 请 求 ， 向 HDFS 文件 系统 中 读 写 数据 ， 属 
于 HBase 中 最 核心 的 模块 。 它 内 部 管理 了 一 系列 HRegion 对 象 ， 每 个 HRegion 对 应 了 
Table 中 的 一 个 Region, HRegion 由 多 个 HStore 组 成 。 每 个 HStore 对 应 了 Table 中 的 一 
个 Column Family 的 存储 ， 每 个 Column Family 就 是 一 个 集中 的 存储 单元 ， 设 计 师 最 好 
将 具备 共同 IO 特性 的 column 放 在 一 个 Column Family 中 ， 一 般 来 说 ， 我 们 只 设置 一 
个 Column Family. HStore 存储 是 HBase 存储 的 核心 ， 其 中 由 两 部 分 组 成 ， 一 是 
MemStore; 二 是 StoreFiles。MemStore 是 Sorted Memory Buffer， 用 户 写 入 的 数据 首先 
会 放 入 MemStore, 当 MemStore 满 了 以 后 会 Flush 成 一 个 StoreFile( 底 层 实现 是 HFile), 
当 StoreFile 文件 数量 增长 到 一 定 阐 值 , 会 触发 Compact 合并 操作 ,将 多 个 StoreFiles 合 
并 成 一 个 StoreFile， 合 并 过 程 中 会 进行 版 本 合并 和 数据 删除 ， 所 以 HBase 其 实 只 有 增 
加 数据 ， 所 有 的 更 新 和 删除 操作 都 是 在 后 续 的 compact 过 程 中 进行 的 ,这 使 得 用 户 的 写 
操作 只 要 进入 内 存 中 就 可 以 立即 返回 ， 保 证 了 HBase VO 的 高 性 能 。 有 具体 过 程 如 图 6-2 
所 示 。 


Client 


HRegionserver 
从 节点 
HRegion 


HRegionServer 
从 节点 
HRegion EE 


Store 


Ma a a a cos i 


图 6-2 Hbase 工作 原理 
6.3.1 Hadoop 完全 分 布 式 集群 构建 


1. 配置 Linux 环境 

(1) 配置 好 各 虚拟 机 的 网 络 〈 采 用 NAT 联网 模式 ) 

(2) 通过 Linux 图 形 界 面 进行 修改 〈 桌 面 版 本 Centos) 

BEA Linux 图 形 界面 一 右 击 右上 方 的 两 个 小 电脑 一 单 击 Edit connections 一 选中 当前 
网 络 System eth0 一 单 击 edit 按钮 一 选择 IPv4 一 method 选择 为 manual 一 单 击 add 按钮 一 添 
加 TP: 192.168.1.101， 子 网 掩 码 : 255.255.255.0， 网 关 : 192.168.1.1 一 单 击 apply 按钮 。 
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3) 修改 配置 文件 方式 


(4) 修改 各 个 虚拟 机 主机 名 


(5) 修改 主机 名 和 IP 的 映射 关系 


(6) 关闭 防火 墙 


(7) 配置 ssh 免 登 录 


执行 完 这 个 命令 后 ,会 生成 两 个 文件 id rsa CAH) „id rsapub (AH). 
将 公 钥 复制 到 要 免 密 登录 的 目标 机 器 上 : 


à Dy 


en 
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(8) 同步 集群 时 间 

常用 的 手动 进行 时 间 的 同步 : 
date -s "2018-03-03 03:03:03" 
或 者 网 络 同步 : 

yum install ntpdate 

ntpdate cn.pool.ntp.org 

2. 安装 IDK 并 配置 环境 变量 

CD 上 传 jdk 


rz jdk-8u65-linux-x64.tar.gz 


(2) 解压 jdk 


tar -zxvf jdk-8u65-linux-x64.tar.gz -C /root/apps 
(3) % java 添加 到 环境 变量 中 


vim/etc/profile 

# 在 文件 最 后 添加 

export JAVA_HOME=/root/apps/jdk1.8.0_65 

export PATH=$PATH:$JAVA HOME/bin 

export CLASSPATH=.:$JAVA HOME/lib/dt.jar:$JAVA HOME/lib/tools.jar 
# 刷 新 配置 


source /etc/profile 


3. 安装 hadoop2.7.4 
(1) 上 传 hadoop 的 安装 包 到 服务 器 


hadoop-2.7.4-with-centos-6.7.tar.gz 


(2) 解压 安装 包 

tar zxvf hadoop-2.7.4-with-centos-6.7.tar.gz 

注意 : hadoop2.x 的 配置 文件 目录 : SHADOOP_HOME/etc/hadoop. 
4. 配置 hadoop 的 核心 配置 文件 

(1) 配置 文件 hadoop-env.sh 


vi hadoop-env.sh 
export JAVA HOME-/root/apps/jdk1.8.0 65 


(2) 配置 文件 core-site.xml 
说 明 : 指定 HADOOP 所 使 用 的 文件 系统 schema (URI), HDFS 的 主 节点 (NameNode) 
地 址 。 


<property> 
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<name>fs.defaultFS</name> 
<value>hdfs://node-1:9000</value> 
</property> 


说 明 : 指定 hadoop 运行 时 产生 文件 的 存储 目录 , ERW /tmp/hadoop-$ {user.name} -->. 


<property> 
<name>hadoop.tmp.dir</name> 
<value>/home/hadoop/hadoop-2.4.1/tmp</value> 
</property> 


(3) 配置 文件 hdfs-site.xml 


<!-- 指定 HDES 副本 的 数量 --> 

<property> 
<name>dfs.replication</name> 
<value>2</value> 

</property> 

<property> 
<name>dfs.namenode.secondary.http-address</name> 
<value>node-2:50090</value> 

</property> 


(4) 配置 文件 mapred-site.xml 


mv mapred-site.xml.template mapred-site.xml 
vi mapred-site.xml 
<!-- 指定 mr 运行 时 框架 , 这 里 指定 在 yarn 上 ,默认 是 local --> 
<property> 
<name>mapreduce. framework .name</name> 
<value>yarn</value> 
</property> 


(5) 配置 文件 yam-site.xml 


<!-- 指定 YARN 的 主 节点 (ResourceManager) 的 地 址 --> 

<property> 
<name>yarn. resourcemanager . hostname</name> 
<value>node-1</value> 

</property> 

<!-- NodeManager 上 运行 的 附属 服务 . 需 配 置 成 mapreduce shuffle, 才 可 运行 
MapReduce 程序 默认 值 :"" --> 

<property> 
<name>yarn.nodemanager . aux-services</name> 
<value>mapreduce shuffle</value> 

</property> 


(6) 配置 文件 slaves， 里 面 写 上 从 节点 所 在 的 主机 名 字 


vi slaves 
node-1 


sag s 
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node-2 
node-3 


5. 将 hadoop 添加 到 环境 变量 


vim/etc/proflie 

export JAVA HOME=/root/apps/jdk1.8.0 65 

export HADOOP HOME-/root/apps/hadoop-2.7.4 

export PATH=$PATH:$JAVA HOME/bin:$HADOOP HOME/bin:$HADOOP HOME/sbin 
source /etc/profile 


6. 格式 化 namenode (本 质 是 对 namenode 进行 初始 化 ) 
hdfs namenode -format (hadoop namenode -format) 
7. 启动 hadoop， 验 证 是 否 启 动 成 功 ， 如 图 6-1 所 示 。 
(1) 先 启动 HDFS 

sbin/start-dfs.sh 

(2) 再 启动 YARN 

sbin/start-yarn.sh 

(3) 使 用 jps 命令 验证 


27408 NameNode 

28218 Jps 

27643 SecondaryNameNode (secondarynamenode) 
28066 NodeManager 

27803 ResourceManager 

27512 DataNode 

http: //192.168.1.101: 50070 (HDFS 管理 界面 ) 
http: //192.168.1.101: 8088 (MR 管理 界面 ) 


图 6-3 hadoop 集群 启动 成 功 
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6.3.2 Spring MVC 和 Spring Boot 集成 Hbase 


构建 BD StorageServer Maven 工程 。 本 服务 使 用 Hbase 主要 来 存储 用 户 的 基本 信 
息 以 及 智能 终端 运动 数据 等 ， 设 计 了 sport 和 patient 两 张 表 来 存放 数据 。Hbase 是 采用 
集群 的 方式 部 署 在 VMware 虚拟 机 的 Linux 系统 下 , 系统 镜像 可 以 在 本 书 提 供 的 网 盘 上 
下 载 。Hbase 的 相关 配置 如 下 。 

(1) 使 用 hbase 之 前 要 引入 其 相关 依赖 ， 需 要 在 项 目 pom.xml 文件 添加 依赖 如 下 : 


<!-- hbase 相关 --> 

<dependency> 
<groupId>org.apache.hbase</groupId> 
<artifactId>hbase-client</artifactId> 
<version>0.98.13-hadoop2</version> 

</dependency> 

<!-- Spring Hbase --> 

<dependency> 
<groupId>org.Springframework.data</groupId> 
<artifactId>Spring-data-jpa</artifactId> 
<version>1.6.0.RELEASE</version> 

</dependency> 

<dependency> 
<groupId>org.Springframework.data</groupId> 
<artifactId>Spring-data-hadoop</artifactId> 
<version>2.0.2.RELEASE</version> 

</dependency> 


(2) Hbase 的 参数 配置 文件 hbase.properties， 根 据 业务 配置 hbase WHEY. UA 
列 名 、flume 的 日 志文 件 路 径 、hbase 在 zookeeper 中 的 注册 名 等 。 具 体 配置 如 下 : 


#master 
hbase.master=192.168.106.111 
#zookeeper ip port 
hbase.zookeeper.quorum-hadoop 
hbase.zookeeper.property.clientPort-2181 
#hbase table 

patientTable-patient 
SportTable-sport 

#hbhbaseTablease family 
patientFamily-info 
sportFamily=data 

#flume 日 志文 件 路 径 
flumeLogPath-d:/flume/log/data.log 
#hbase 启动 命令 

start hadoop enviroment 

start = al sh 
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cd/usr/local/zookeeper/bin 
zkServer.sh start 
start-bhase.sh 

hbase shell 
qualifierPhone=phone 
qualifierDeviceld=deviceld 
qualifierCompany=company 
qualifierAppType=appType 
qualifierDataType=dataType 
qualifierDataValue=dataValue 
qualifierReceiveDateTime=receiveDateTime 
qualifierPname=pname 
qualifierTeamName=teamName 


6.3.3 HbaseTemplate 核心 类 实现 Dao RHO 

CD 为 了 简化 代码 开发 ，Spring 一 般 都 会 对 主流 的 框架 进行 集成 ， 并 提供 封装 类 ， 
Hbase 也 不 例外 。 若 使 用 Spring 集成 hbase 的 方式 ， 需 要 在 Spring 的 核心 配置 文件 中 通 
过 import 标签 引入 两 个 配置 文件 hbase.xml 和 hbase-site xml。 这 两 个 xml 文件 主要 是 配 
置 Hbase 的 系统 参数 ， 包 括 系统 配置 和 性 能 参数 。 其 中 hbase.zookeeper.quorum 名 称 是 
Hadoop 〈 这 是 我 的 集群 Master 的 配置 名 称 )，hbase.zookeeper.property.clientPort 端口 号 
是 2181， 这 些 都 是 程序 连接 集群 的 关键 配置 参数 。 

(I) hbase.xml 文件 ， 在 app-config.xml 中 加 载 <import resource="../hbase.xml" />, Mil 
Fu: 


«?xml version-"1.0" encoding="UTF-8"?> 
<beans xmlns="http://www.Springframework.org/schema/beans" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xmlns:context="http: //www.Springframework.org/schema/context" 
xmlns:hdp-"http://www.Springframework.org/schema/hadoop" 
xsi:schemaLocation-"http://www.Springframework.org/schema/beans 
http://www.Springframework.org/schema/beans/Spring-beans.xsd 
http://www.Springframework.org/schema/context http://www. 
Springframework.org/schema/context/Spring-context.xsd 
http://www.Springframework.org/schema/hadoop http://www. 
Springframework.org/schema/hadoop/Spring-hadoop.xsd"> 
<hdp:configuration resources-"classpath:/hbase-site.xml"»«/hdp: 


configuration> 
<hdp:hbase-configuration configuration-ref="hadoopConfiguration"/> 
«1— 配置 HbaseTemplate --> 
<bean id="hbaseTemplate" class="org.Springframework.data.hadoop.hbase. 
HbaseTemplate"> 
<property name="configuration" ref="hbaseConfiguration"> 
</property> 
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(2) hbase-site.xml 文件 是 配置 并 加 载 Hadoop 集群 环境 ， 配 置 如 下 : 
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<value>${hbase.zookeeper.property.clientPort}</value> 
</property> 
</configuration> 


(2) ZEH Spring Boot 进行 开发 ， 则 需要 通过 注解 的 方式 来 完成 对 hbaseTemplate 
的 初始 化 《与 Spring 集成 hbase 的 目的 一 样 ， 只 是 实现 方式 不 同 )。 我 们 可 以 定义 一 个 
Hbase 的 配置 类 HbaseConifg 来 完成 相关 功能 。 代 码 实现 如 下 : 


package com.cloud.storage.hbase; 

import org.apache.hadoop.hbase.HBaseConfiguration; 

import org.Springframework.beans.factory.annotation.Value; 
import org.Springframework.context.annotation.Bean; 

import org.Springframework.context.annotation.PropertySource; 
import org.Springframework.data.hadoop.hbase.HbaseTemplate; 
import org.Springframework.stereotype.Component; 

/** 

* hbase 的 配置 类 


* 


* @author changyaobin 


2 

@Component 

@PropertySource (value = {"classpath:com/cloud/storage/Config/hbase. 
properties"}) 

public class HbaseConfig { 

@Bean 

public HbaseTemplate hbaseTemplate (@Value ("${hbase.zookeeper.quorum}") 
String zookerQuorum, 

@Value ("${hbase.zookeeper.property.clientPort}")String port) { 
HbaseTemplate hbaseTemplate = new HbaseTemplate (); 
org.apache.hadoop.conf.Configuration conf = HBaseConfiguration. 

create (); 

conf.set ("hbase.zookeeper.quorum", zookerQuorum) ; 
conf.set ("hbase.zookeeper.port",port); 
hbaseTemplate.setConfiguration (conf); 
hbaseTemplate.setAutoFlush (true); 
return hbaseTemplate; 

} 

} 


(3) 不 管 操作 什么 数据 库 ， 其 相应 的 jar 包 都 会 提供 给 我 们 对 应 的 操作 类 或 接口 ， 
但 是 调用 其 底层 的 接口 或 类 是 相当 的 烦琐 。 对 于 有 经 验 的 开发 人 员 , 会 寻找 相应 的 框架 
或 者 自己 封装 框架 , 这 样 可 以 大 大 减少 一 些 重复 的 代码 操作 , 把 精力 全 部 投入 到 业务 开 
发 中 。 遵 循 这 个 原则 ， 我 们 这 里 对 HBase 一 些 常用 的 查询 、 插 入 参数 进行 了 封装 ， 这 
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样 就 可 以 实现 构建 查询 对 象 来 灵活 地 构建 hbase 查询 语句 。 下 面 是 自 定 义 区 查询 类 
HbaseConfig， 代 码 实现 如 下 : 


package com.cloud.storage.base.Domain; 
import java.util.HashMap; 

import java.util.List; 

import java.util.Map; 


import org.apache.hadoop.hbase.client.Scan; 


import org.apache.hadoop.hbase.filter.CompareFilter.Compareop; 
import org.apache.hadoop.hbase.filter.Filter; 

import org.apache.hadoop.hbase.filter.PageFilter; 

import com.google.common.collect.Lists; 

public class HQuery { 


private 
private 
private 


String table; 
String family; 
String qualifier; 


11 列 值 查询 , key 为 列 的 值 , value Jy hbase 比较 类 型 


private 
private 
private 
private 
private 
private 
private 
private 
private 


Map<String, CompareOp>qualifierValues=new HashMap<>(); 
String row; 

String startRow; 

String stopRow; 

Filter filter; 

PageFilter pageFilter; 

Scan scan; 

String searchLimit; 

List<HBaseColumn> columns = Lists.newArrayList (); 


public String getTable () { 
return table; 


} 


public void setTable (String table) { 
this.table = table; 


} 


public String getFamily(){ 
return family; 


} 


public void setFamily (String family) { 
this.family = family; 


} 


public String getQualifier(){ 
return qualifier; 


} 


public void setQualifier (String qualifier) { 


this.qualifier = qualifier; 


} 


public String getRow(){ 
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(5) 自 定义 hbase 库 的 列 簇 类 HBaseColumn， 主 要 用 于 数据 插入 HBase 时 构建 列 
徐 、 列 名 、 列 值 等 参数 。 代 码 实现 如 下 : 
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(5) 自 定义 hbase 库 的 列 簇 类 HBaseColumn， 主 要 用 于 数据 插入 HBase 时 构建 列 
徐 、 列 名 、 列 值 等 参数 。 代 码 实现 如 下 : 


. 
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6.3.4 Hbase 集群 的 智能 终端 运动 数据 Controller 接口 


智能 终端 运动 数据 Controller 接口 ， 用 于 接收 第 3 章 的 灵活 转发 服务 的 智能 终端 运 
动 数据 ， 对 数据 参数 进行 校 验 ， 并 调用 Service 层 接口 保存 到 HBase 库 。 在 第 4 章 已 经 
提 到 ， 入 库 方 式 可 以 通过 修改 SysConf properties 的 入 库 开关 来 完成 ， 若 要 入 HBase E 
只 需 将 SysConf properties 的 HBase 置 为 true 即 可 。 文 件 代码 实现 如 下 : 


package com.cloud.storage.controller; 

import java.io.UnsupportedEncodingException; 

import java.util.HashMap; 

import java.util.Map; 

import javax.servlet.http.HttpServletRequest; 

import javax.servlet.http.HttpServletResponse; 

import org.apache.log4j.Logger; 

import org.Springframework.beans.factory.annotation.Autowired; 
import org.Springframework.stereotype.Controller; 

import org.Springframework.ui.ModelMap; 

import org.Springframework.web.bind.annotation.PathVariable; 
import org.Springframework.web.bind.annotation.RequestMapping; 
import org.Springframework.web.bind.annotation.RequestMethod; 
import com.cloud.storage.base.Domain.SportsData; 

import com.cloud.storage.pattern.state.Context; 

import com.cloud.storage.service.ObservationService; 

import com.cloud.storage.service.PatientService; 

import com.cloud.storage.service.SportsDataHbaseService; 
import com.cloud.storage.service.SportsDataService; 

import com.cloud.storage.util.DateUtil; 

import com.cloud.storage.util.JsonUtil; 

import com.cloud.storage.util.PropertiesReader; 

import com.cloud.storage.util.ResponseUtil; 

import com.cloud.storage.util.ValidateUtil; 

import net.sf.json.JSONObject; 

/** 

* 数据 接收 接口 ,与 DispatchServer 转发 服务 进行 数据 对 接 


* 


* @author changyaobin 

* 

2 

@Controller 

public class CommonRestfulController { 
@Autowired 
private ObservationService observationService; 
@Autowired 
private SportsDataService sportsDataService; 
@Autowired 
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private SportsDataHbaseService sportsDataHbaseService; 

@Autowired 

private PatientService patientService; 

private static Logger log = Logger.getLogger (CommonRestfulController. 
class); 

/** 

* 数据 采集 接口 

* 

* @param request 

* @param response 

* @throws Exception 


2y 
@SuppressWarnings ({"rawtypes", "unchecked" }) 
@RequestMapping (value = "/businessDataReceive") 


public void businessDataReceive (HttpServletRequest request, 
Http ServletResponse response)throws Exception { 

log.info("the start of businessDataReceive"); 
Map result = new HashMap (); 
1og.info(" 收 到 网 关 DispatchServer 发 来 数据 # *... \r\n"); 
String jsonData = 
try { 

jsonData = new String ( (request .getParameter ("data") .getBytes 

("iso-8859-1")),"UTF-8"); 

) catch(UnsupportedEncodingException e)( 

e.printStackTrace(); 


log.error ("receive data occur exception:" + e. getMessage()) ; 
) 
JSONObject jo = JSONObject.fromObject (jsonData) ; 
11 数据 参数 校 验 
String validateInfo = "" + ValidateUtil.checkAppType (JsonUtil. 
getJsonParamterString (jo, "appType")) 
*(ValidateUtil.isValid(JsonUtil.getJsonParamterString 
(jo,"dataType"))-- true ? "":"false") 
+ ValidateUtil.checkDateTime (JsonUtil. 
getJsonParamter String(jo,"collectDate")) 
+(ValidateUtil.isValid(JsonUtil.getJsonParamterString 
(jo, "phone"))== true ? "":"false"); 
// 校 验 通过 
if("".equals (validateInfo) ) { 
String isMongo = PropertiesReader.getProp ("mongodb") ; 
String isMysql 
String isHbase = PropertiesReader.getProp ("hbase") ; 


PropertiesReader.getProp ("mysql") ; 
Map<String, Class>classMap=new HashMap<>(); 


classMap.put ("dataValue", HashMap.class) ; 
// 入 库 mongodbJSONObject 


s uq os 


"1 
天 数据 架构 之 道 与 项 目 实 成 了 


SportsData sportsData =(SportsData) JSONObject .toBean 
(JSONObject . fromObject (jsonData) , SportsData.class, 
classMap) ; 

if ("true".equals (isMongo) ) { 

// 入 库 mongodb 
sportsDataService.saveSportsData (sportsData); 
} else if("true".equals (isMysql)){ 
// 入 库 mysql 
new Context (request, response, observationService, 
patient Service) .request (); 
} else if ("true".equals (isHbase) ) { 
// A Hbase JẸ 
sportsDataHbaseService.saveData (sportsData); 
} 
} else { 

response.setStatus (412); 

result.put ("status", "数据 验证 失败 !" + validateInfo) ; 

log.info("the end of businessDataReceive has invalidate 
param include " + validateInfo); 

) 
response.setStatus (200); 
ResponseUtil.writeInfo (response, JSONObject.fromObject (result). 
toString()); 
} 


6.3.5 Hbase 集群 的 智能 终端 运动 数据 Service 接口 


(1) 智能 终端 运动 数据 保存 接口 SportsDataHbaseService， 定 义 保 存 智能 终端 运动 
数据 的 方法 。 有 具体 代码 如 下 : 


package com.cloud.storage.service; 
import com.cloud.storage.base.Domain.SportsData; 
public interface SportsDataHbaseService ( 

boolean saveData (SportsData data)throws Exception; 
} 


(2) 定义 接口 实现 类 SportsDataHbaseServiceImpl， 主 要 调用 Dao 层 接 口 保存 智能 
终端 运动 数据 入 HBase 库 ， 以 及 将 智能 终端 运动 数据 写 入 日 志文 件 中 ， 供 Flume 监测 
使 用 。@Value 表示 从 配置 文件 hbase.properties 中 读 取 列 名 ， 代 码 实现 如 下 : 


package com.cloud.storage.serviceImpl; 


import java.io.BufferedWriter; 
import java.io.File; 

import java.io.FileWriter; 
import java.util.List; 

import java.util.Map; 
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org.apache.log4j.Logger; 
org.Springframework.beans.factory.annotation.Autowired; 
org.Springframework.beans.factory.annotation.Value; 
org.Springframework.stereotype.Service; 
com.cloud.storage.base.Domain.HBaseColumn; 
com.cloud.storage.base.Domain.HQuery; 
com.cloud.storage.base.Domain.SportsData; 
com.cloud.storage.dao.SportsDataHbaseDao; 
com.cloud.storage.service.SportsDataHbaseService; 
com.cloud.storage.util.DateUtil; 
com.cloud.storage.util.ValidateUtil; 
net.sf.json.JSONArray; 


GService 


public class SportsDataHbaseServiceImpl implements SportsDataHbase Service ( 


private static Logger log - Logger.getLogger 


(SportsDataHbaseService Impl.class); 


GAutowired 


private SportsDataHbaseDao sportsDataHbaseDao; 
@Value ("${sportTable}") 

private String sportTable; 

@Value ("${patientTable}") 

private String patientTable; 

@Value ("${patientFamily}") 

private String patientFamily; 

@Value ("${sportFamily}") 

private String sportFamily; 


@Value ("${qualifierPhone}") 
private String qualifierPhone; 
@Value ("$ {qualifierDeviceId}") 
private String qualifierDeviceld; 


@Value ("$ {qualifierCompany}") 


private String qualifierCompany; 


@Value ("$ {qualifierAppType}") 


private String qualifierAppType; 


@Value ("$ {qualifierDataType}") 


private String qualifierDataType; 
@value ("${qualifierDataValue}") 
private String qualifierDataValue; 


@Value ("$ {qualifierReceiveDateTime}") 


private String qualifierReceiveDateTime; 


@Value ("${qualifierPname}") 


private String qualifierPname; 
@Value ("${qualifierTeamName}") 
private String qualifierTeamName; 
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@Value ("${flumeLogPath}") 
private String flumeLogPath; 
public boolean saveData (SportsData data)throws Exception { 
boolean saveSuccess = false; 
String dataType = data.getDataType (); 
String appType = data.getAppType (); 
String collectDate = data.getCollectDate(); 
List<Map<String,String>> dataValue = data.getDataValue (); 
String phone = data.getPhone (); 
String deviceID = data.getDeviceID(); 
if(ValidateUtil.paramCheck (appType, deviceID, collectDate, 
dataType, phone) ) { 
if (ValidateUtil.paramCheck (phone) ) { 
if ("stepCount".equals (dataType) || "stepDetail".equals 
(dataType) ) { 
HQuery patienQuery = new HQuery(); 
List<HBaseColumn> infoColums = patienQuery. 
getColumns (); 
String patientRowkey = phone + " "+ deviceID+" "+ 
appType; 
patienQuery.setRow (patientRowkey) ; 
patienQuery.setTable (patientTable) ; 
infoColums.add(new HBaseColumn (patientFamily, 
qualifierPhone,data.getPhone ())); 
infoColums.add (new HBaseColumn (patientFamily, 
qualifierPname, data.getPname ())); 
infoColums.add(new HBaseColumn (patientFamily, 
qualifierPname, data.getPname ())); 
infoColums.add(new HBaseColumn (patientFamily, 
qualifierTeamName, data.getTeamName ())); 
infoColums.add(new HBaseColumn (patientFamily, 
qualifierCompany, data.getCompany())); 
infoColums.add(new HBaseColumn (patientFamily, 
qualifierAppType, appType)); 
sportsDataHbaseDao.addSportsData (patienQuery) ; 
HQuery hquery = new HQuery(); 
String stringDate = DateUtil.dateToString 
(collectDate) ; 
long time = DateUtil.getTime (stringDate) ; 
long Datetime = Long.MAX VALUE - time; 
String rowkey = phone + " " + Datetime + " " + appType + 
" " + dataType + DateUtil.getCurrentTime (); 
hquery.setRow (rowkey) ; 
hquery.setTable (sportTable); 
List<HBaseColumn> columns = hquery.getColumns (); 
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columns . add (new HBaseColumn (sportFamily, 
qualifier Phone, phone) ); 

columns.add(new HBaseColumn (sportFamily, 
qualifier Deviceld, deviceID)); 

columns.add(new HBaseColumn (sportFamily, 
qualifier Company, "bigData")); 

columns . add (new HBaseColumn (sportFamily, 
qualifier AppType, appType)); 

columns.add(new HBaseColumn (sportFamily, 
qualifier DataType, dataType) ); 

columns.add(new HBaseColumn (sportFamily, 
qualifier DataValue, JSONArray.fromObject 
(dataValue).toString())); 

columns.add(new HBaseColumn (sportFamily, 
qualifier ReceiveDateTime, collectDate.toString())); 

columns . add (new HBaseColumn (sportFamily, "id", rowkey)); 

sportsDataHbaseDao.addSportsData (hquery) ; 

saveSuccess = true; 


} 
11 数据 保存 到 hbase Já, 写 入 日 志文 件 中 , HE flume 读 取 
if (saveSuccess) { 
if ("stepCount".equals (dataType) ) { 
String stepSum = ""; 
String distanceSum = ""; 
String calSum = ""; 
if ("stepCount".equals (dataType) ) { 
if (dataValue != null && dataValue.size()> 0){ 
Map<String, String> map = dataValue.get (0); 
for (Map<String, String> dataMap:dataValue) { 
if (dataMap.containsKey ("stepSum") ) { 
stepSum = dataMap.get ("stepSum") ; 
} else if (dataMap.containsKey ("distanceSum") ) { 
distanceSum = dataMap.get ("distanceSum") ; 
} else if (dataMap.containsKey("calSum") ) { 
calSum = dataMap.get ("calSum"); 


} 
// 数据 日 志 信息 
String dataLog = data.getCollectDate()+ "Mt" + phone + 


«ss 
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"SOCKET/1.0\t" + "bigData\t" + deviceID + "At" 
+ stepSum + "Xt" + distanceSum + "Xt" + calSum; 
File file = new File (flumeLogPath) ; 
if(!file.exists()){ 
file.mkdirs (); 

} 
BufferedWriter fileWriter = new BufferedWriter (new 

FileWriter (file,true)); 
fileWriter.write (dataLog) ; 
fileWriter.newLine (); 
fileWriter.close(); 


} 
return saveSuccess; 


} 
6.3.6 Hbase 集群 的 智能 终端 运动 数据 Dao 接口 


(1) 智能 终端 运动 数据 Hbase 库 操作 Dao 层 接口 SportsDataHbaseDao, 定义 了 添加 
智能 终端 运动 数据 以 及 根据 Hquery 对 象 查询 智能 终端 运动 数据 的 方法 。 代 码 实现 如 下 : 
package com.cloud.storage.dao; 
import java.util.List; 
import com.cloud.storage.base.Domain.HQuery; 
import com.cloud.storage.base.Domain.SportsData; 
public interface SportsDataHbaseDao { 
boolean addSportsData (HQuery query); 
List<SportsData> selectByQuery (HQuery query); 
} 


(2) 智能 终端 运动 数据 Dao 层 实现 类 SportsDataHbaseDaoImpl, iit Á E X 
HBaseTemplate 类 来 操作 HBase 库 。 代 码 实 现 如 下 : 


package com.cloud.storage.daoImpl; 


import java.util.List; 

import org.Springframework.beans.factory.annotation.Autowired; 

import org.Springframework.stereotype.Repository; 

import com.cloud.storage.base.Domain.HQuery; 

import com.cloud.storage.base.Domain.SportsData; 

import com.cloud.storage.dao.SportsDataHbaseDao; 

import com.cloud.storage.util.HBaseTemplate; 

@Repository 

public class SportsDataHbaseDaoImpl implements SportsDataHbaseDao{ 
@Autowired 
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private HBaseTemplate hbaseTemplate; 
public boolean addSportsData (HQuery query) { 
boolean addSuccess=false; 
try { 
hbaseTemplate.execute (query); 
addSuccess=true; 
} catch (Exception e) { 
e.printStackTrace (); 
} 
return addSuccess; 
} 
@override 
public List<SportsData> selectByQuery (HQuery query) { 
// TODO Auto-generated method stub 
List<SportsData> datas = hbaseTemplate.find (query, SportsData. 
class); 
return datas; 


} 


(3) HE X HBase 操作 模板 工具 类 ， 通 过 操作 Spring-hbase 提供 给 我 们 的 
HbaseTemplate 模板 类 , 以 及 自 定义 封装 的 HBase 查询 类 HQuery 完成 对 HBase 的 新 增 、 
条 件 查询 等 操作 。 代 码 实现 如 下 : 


package com.cloud.storage.util; 

import java.util.Iterator; 

import java.util.List; 

import java.util.Set; 

import org.apache.commons.lang.StringUtils; 

import org.apache.hadoop.hbase.Cell; 

import org.apache.hadoop.hbase.client.HTableInterface; 
import org.apache.hadoop.hbase.client.Put; 

import org.apache.hadoop.hbase.client.Result; 

import org.apache.hadoop.hbase.client.Scan; 

import org.apache.hadoop.hbase.filter.FilterList; 

import org.apache.hadoop.hbase.filter.SingleColumnValueFilter; 
import org.apache.hadoop.hbase.util.Bytes; 

import org.apache.10g4j.Logger; 

import org.Springframework.beans.factory.annotation.Autowired; 
import org.Springframework.data.hadoop.hbase.HbaseTemplate; 
import org.Springframework.data.hadoop.hbase.RowMapper; 
import org.Springframework.data.hadoop.hbase.TableCallback; 
import org.Springframework.stereotype.Component; 

import org.Springframework.stereotype.Repository; 

import com.alibaba.fastjson.JSON; 
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* @param HQuery 
* (return 
t 
public «T» List<T> find(HQuery query, final Class<T> c){ 
// 如 果 未 设置 scan, 设置 scan 
if (query.getScan()== null)( 
Scan scan = new Scan(); 
FilterList localFilterList = new FilterList (FilterList. 
Operator.MUST PASS ALL); 
// 起 止 搜索 
if (StringUtils.isNotBlank (query.getStartRow ())&& StringUtils. 
isNotBlank (query.getStopRow())) 1 
scan.setStartRow (Bytes.toBytes (query.getStartRow())); 
scan.setStartRow (Bytes.toBytes (query.getStopRow())); 
} 
// 列 匹 配 搜索 
if (StringUtils.isNotBlank (query.getFamily())&& StringUtils. 
isNotBlank (query.getQualifier()) 

&& query.getQualifierValues() != null) { 

Set<String> keySet = query. getQualifierValues() .keySet (); 
for(String key:keySet) { 

SingleColumnValueFilter singleColumnValueFilter = 
new SingleColumnValueFilter (Bytes. toBytes (query. 
getFamily()),Bytes. toBytes (query.getQualifier()), 
query.getQualifierValues () .get (key) ‚Bytes. 
toBytes (key) ); 

localFilterList.addFilter(singleColumn ValueFilter) ; 


} 
11 分 页 搜索 
if (query.getPageFilter ()!= null) { 
localFilterList .addFilter (query.getPageFilter ()); 
} 
scan.setFilter (localFilterList); 
query.setScan (scan); 
} 
11 设置 缓存 
query.getScan() .setCacheBlocks (false); 
query.getScan() .setCaching (2000); 
return htemplate.find(query.getTable(),query.getScan(), 
new Row Mapper<T> () { 
@override 
public T mapRow (Result result, int rowNum) throws Exception { 
List<Cell> ceList = result.listCells(); 
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JSONObject obj = new JSONObject (); 
T item = c.newInstance (); 
if(ceList != null && ceList.size()» 0) 1 
for(Cell cell:ceList) { 
String value = Bytes.toString(cell.getValue 
Array (),cell.getValueOffset (), cell. 
getValueLength ()); 
String quali = Bytes.toString(cell.getQualifier 
Array (), cell.getQualifieroffset (), cell. 
getQualifierLength()); 
if(value.startsWith("["))( 
obj.put (quali, JSONArray.parseArray (value)); 
} else { 
obj.put (quali, value); 


} 
item = JSON.parseObject (obj.toJSONString(),c); 


return item; 


n: 
) 
per 
* 通过 表 名 、 列 名 、 列 值 、 比 较 运算 符 获取 数据 
* 
* @param HQuery 
* @return 
x 
public «T» List«T» findByCompare (HQuery query,final Class<T> c)( 
// 如 果 未 设置 scan, RH scan 
if (query.getScan()== null) { 
Scan scan = new Scan(); 
FilterList localFilterList = new FilterList (FilterList. 
Operator.MUST PASS ALL); 
// 列 匹 配 搜索 
if(StringUtils.isNotBlank (query.getFamily())&& StringUtils. 
isNotBlank (query.getQualifier()) 
&& query.getQualifierValues () !=null) { 
Set<String> keySet = query.getQualifierValues() .keySet (); 
for (String key:keySet) { 
SingleColumnValueFilter singleColumnValueFilter = 
new SingleColumnValueFilter (Bytes.toBytes (query. 
getFamily()),Bytes. toBytes (query.getQualifier()), 
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6.4 项 目 小 结 


本 章 重点 介绍 了 Hbase 的 工作 原理 以 及 特性 ， 为 后 续 工 程 构建 和 开发 黄 定 了 基础 。 
接着 讲述 了 Spring MVC 和 Spring Boot 对 HbaseTemplate 集成 方式 。 有 具体 如 下 : 

(1) 使 用 Hbase 主要 来 存储 用 户 的 基本 信息 以 及 智能 终端 运动 数据 等 , 设计 了 sport 
和 patient 两 张 表 来 分 别 存放 运动 和 用 户 信息 数据 。 

(2) JIŽ pom.xml 文件 ， 引 入 开发 的 相关 JAR 包 ， 包 括 Spring 和 Hadoop 集成 等 。 

(3) 构建 一 个 集群 环境 ，Hbase 的 参数 配置 文件 hbase.properties (ME. T FUA PU 
4455), 并 加 入 hbase-site.xml 文件 (配置 了 Hadoop 环境 的 hbase.zookeeper.quorum 的 名 
称 为 hadoop 和 zookeeper 端口 号 hbase.zookeeper.property.clientPort). 

(4) 需要 在 Spring 的 核心 配置 文件 中 通过 import 标签 引入 配置 文件 hbase.xml. 
hbase.xml 依赖 注入 HbaseTemplate 类 ， 实 现 了 Dao 层 数 据 操作 接口 的 封装 。 

(5) 自己 封装 了 类 HQuery (定义 了 Hbase (HHA. WH. WA. rowkey 等 ) 和 
HBaseColumn (具体 的 列 名 称 )， 实 现 了 利用 对 象 方 式 统一 操作 数据 库 的 基础 。Spring 
读 取 配 置 文件 属性 的 注解 使 用 是 主流 的 开发 模式 ， 就 是 SportsDataHbaseServiceImpl 中 
添加 注解 ， 如 @Value("$ {sportTable}") 等 ， 来 读 取 配置 文件 hbase.properties 的 列 和 列 
簇 等 定义 信息 。 

(6) 在 全 面 完 成 了 (1) ~ (5) 的 集群 配置 环境 之 后 (Hadoop 集群 环境 构建 ，Spring 
和 Hadoop 集成 ， 引 入 HbaseTemplate 类 和 Hbase 构建 列 和 列 簇 等 ), 可 以 进行 编程 实现 
DAO 层 接口 hbaseTemplate.execute (query)， 让 用 户 和 运动 的 数据 进入 Hbase 的 sport 
和 patient 两 张 表 。 

(7) 常用 的 数据 库 查 询 操作 , 就 是 构建 一 个 查询 类 , 然后 查 出 整个 对 象 。 具体 如 下 : 


HQuery query = new HQuery(); 

query.setTable (sportTable); 

query.setFamily ("data"); 

query.setQualifier ("phone"); 

query.setQualifierValue (phone); 

List«SportsData» datas = sportsDataHbaseDao.selectByQuery (query); 
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架构 之 道 分 享 之 七 : 孙子 兵法 的 《地 形 篇 》 论 述 了 各 种 地 形 特点 以 及 军队 在 不 同 
地 形 条 件 下 的 作战 原则 。 项 目 中 要 按照 项 目 规模 和 数据 规模 , 灵活 地 选择 机 器 学 习 的 
语言 和 成 熟 框 架 ， 从 而 得 到 事 半 功 信 的 效果 。 


k 掌握 分 布 式 采 集 服务 Flume 部 署 及 数据 采集 

k 掌握 分 布 式 消息 服务 Kafka 部 署 及 数据 发 送 

* 掌握 Hbase 数据 库 设计 和 Spark 集群 环境 构建 

k 掌握 分 布 式 实时 处 理 引擎 SparkStreaming 原理 及 数据 处 理 方法 
k 掌握 微服 务实 现 数据 处 理 

k 掌握 微服 务实 现 数据 可 视 化 


7.1 核心 需求 分 析 和 优秀 解决 方案 


大 数据 实时 计算 服务 引擎 是 为 新 型 大 数据 应 用 实时 提供 计算 和 分 析 的 服务 。 当 物 联 
网 大 数据 保存 在 海量 数据 存储 服务 引擎 的 数据 库 时 , 需要 通过 大 数据 实时 计算 服务 引擎 
对 数据 进行 抽取 、 过 滤 、 统 计 分 析 和 结果 保存 等 处 理 。 具 体 过 程 分 两 步 进 行 ， 第 一 步 ， 
借助 高 性 能 数据 采集 服务 Fume， 采 集 物 联 网 数据 到 分 布 式 消息 服务 中 间 件 Kafka 中 ， 
作为 消费 端的 SparkStreaming 从 Kafka 中 实时 拉 取 物 联网 数据 , 进行 分 析 处 理 后 把 结果 
保存 到 HBase 中 。 第 二 步 ， 通 过 大 数据 可 视 化 工具 展示 数据 处 理 结 果 ， 采 用 
HBase+SpringBoot+Echarts 框架 实现 数据 查询 和 展示 ， 用 饼 状 图 把 每 个 公司 的 总 步 数 实 
时 统计 并 展现 在 可 视 化 平台 上 。 
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大 数据 实时 计算 服务 引擎 包括 5 个 核心 模块 ， 如 图 7-1 所 示 ， 模 块 之 间 都 要 考虑 高 
内 聚 耦合 的 设计 理念 ， 尤 其 要 重视 高 性 能 和 可 扩展 性 等 关键 因素 ， 有 具体 说 明 如 下 。 

(1) 核心 模块 一 ， 部署 Flume 服务 及 相关 conf 配置 文件 ， 使 用 Flume 采集 服务 框 
架 将 海量 存储 服务 的 数据 采集 到 Kafka o 

(2) 核心 模块 二 ME Kafka 服务 ，SparkStreaming 引擎 从 Kafka 中 读 取 数据 并 且 
进行 数据 分 析 。 

G) 核心 模块 三 : 把 每 个 公司 员工 的 总 步 数 统计 结果 实时 保存 到 Hase 数据 库 中 。 

(4) 核心 模块 四 : 利用 Spring Boot 框架 构建 大 数据 实时 计算 服务 引擎 。 

5) 核心 模块 五 ， 利用 大 数据 可 视 化 工具 Echarts 进行 数据 可 视 化 展示 。 
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图 7-1 大 数据 实时 计算 服务 引擎 的 模块 化 设计 
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7.3.1 分布 式 采集 服务 Flume 部 署 及 数据 采集 


Flume 是 一 个 分 布 式 、 高 可 靠 和 高 可 用 的 海量 日 志 采 集 、 聚 合 和 传输 的 实时 系统 。 
Flume 可 以 采集 文件 、Socket 数据 包 等 各 种 形式 源 数据 ， 又 可 以 将 采集 到 的 数据 输出 到 
HDFS、HBase、Hive、Kafka 等 诸多 外 部 存储 系统 中 。 对 绝 大 多 数 业务 数据 采集 而 言 ， 无 
须 太 多 代码 开发 ， 通 过 对 Flume 的 灵活 配置 就 可 以 实现 。 对 于 复杂 的 应 用 场景 ，Flume 也 
具备 良好 的 自 定义 扩展 能 力 。 因 此 ，Flume 可 以 满足 目前 所 有 互联 网 主流 业务 的 日 常数 据 
处 理 需求 。Flume 的 运行 原理 是 : Flume 的 核心 角色 为 Agent, Flume 分 布 式 系统 常常 是 由 
很 多 Agent 连接 而 形成 的 。Agent 内 部 有 三 个 组 件 ， 一 是 Source 采集 源 ， 用 于 和 数据 源 对 
接 并 获取 数据 ， 二 是 Channel 通道 ， 属 于 Agent 内 部 的 数据 传输 通道 ， 用 于 从 Source 将 数 
据 传递 到 Sink; 三 是 Sink 目标 地 ， 采 集 数据 的 传送 目的 地 ， 用 于 往 下 一 级 Agent 传递 数据 
或 者 往外 部 存储 系统 传递 数据 。 通 常情 况 下 ，Flume 的 采集 模式 分 为 单 级 和 多 级 采集 模式 。 

1. Flume 单 级 Agent 采集 数据 模式 (如 图 7-2 Aras) 


7-2 SR Agent 采集 数据 过 程 模型 
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2. Flume 多 级 Agent 采集 数据 模式 (如 图 7-3 所 示 ) 


图 7-3 多 级 Agent 采集 数据 过 程 模型 


3. Flume 的 安装 和 服务 发 布 

Flume 的 安装 和 所 有 的 第 三 方 中 间 件 安 装 步骤 类 似 ， 包 括 解压 、 修 改 配置 文件 、 启 
动 服务 3 个 步骤 。 具 体 如 下 : 

CD 上 传 安装 包 并 解压 。 前 提 是 在 高 可 靠 海 量 存储 服务 的 hadoopV2.7.3 环境 下 ， 
上 传 安装 包 到 数据 源 所 在 节点 上 。 解 压 tar -zxvf apache-flume-1.6.0-bin.tar.gz. 

(2) 进入 Flume 的 目录 ， 修 改 conf 下 的 ftume-envsh， 在 里 面 配 置 JAVA HOME. 

G) 根据 数据 采集 的 需求 配置 采集 方案 , 描述 在 配置 文件 (文件 名 可 任意 自 定义 ) 
中 。 指 定 采 集 方案 配置 文件 ， 在 相应 的 节点 上 启动 flume agent. 

(4) 使 用 Flume 将 本 地 文件 采集 到 Kafka 中 ， 在 Flume 的 conf 目录 中 创建 一 个 名 
为 log_ Kafka 的 conf 文件 ， 并 进行 如 下 配置 : 


# 定义 agent 
al.sources = srci 


al.channels = chl 

al.sinks = kl 

4 EX sources Witt root 目录 下 的 名 为 log 的 文件 
al.sources.srcl.type = exec 

al.sources.srcl.command=tail -F /root/companylog 
al.sources.srel.channels=chl 

# 定义 sinks 

al.sinks.kl.type = org.apache.flume.sink.Kafka.KafkaSink 
al.sinks.kl.topic = companytopic 
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al.sinks.kl.brokerList =192.168.106.111:9092 
al.sinks.kl.batchSize = 20 
al.sinks.kl.requiredAcks = 1 
al.sinks.kl.channel = chl 

# 定义 channels 

al.channels.chl.type = memory 
al.channels.chl.capacity = 1000 


(5) 启动 FIume， 加 载 配置 文件 log kafka.conf 启动 。 


bin/flume-ng agent --conf conf --conf-file conf/log_kafka.conf --name al 
7.3.2 ”分布 式 消息 服务 Kafka 部 署 及 数据 发 送 


Apache Kafka 是 一 个 开源 消息 系统 ， 由 Scala 语言 实现 ， 是 Apache 软件 基金 会 开 
发 的 一 个 开源 消息 系统 项 目 。Kafka 于 2011 年 年 初 实现 了 开源 。Kafka 服务 目标 是 为 处 
理 实时 数据 提供 一 个 统一 、 高 通 量 、 低 延迟 的 平台 。Kafka 是 一 个 分 布 式 消息 队列 ， 包 
括 生 产 者 和 消费 者 两 个 组 件 。 它 提供 了 类 似 于 IMS 的 特性 , 但 是 在 工作 原理 上 不 一 样 。 
Kafka 对 消息 保存 根据 Topic 类 型 进行 分 组 ， 发 送 消息 者 称 为 Producer 服务 ， 接 收 消息 
者 称 为 Consumer 服务 ， 此 外 Kafka 集群 由 多 个 Kafka 实例 组 成 ， 每 个 实例 (server) PR 
为 一 个 broker, producer 和 consumer 都 依赖 zookeeper 集群 来 保存 一 些 meta 信息 ， 来 
保证 系统 高 可 用 性 。 Katka 作为 一 个 主流 的 分 布 式 消息 队列 , 主要 作用 有 3 个 关键 特点 : 
MEAS. AMIT 

1. Kafka 的 主要 组 件 

(1) Topic: 对 消息 保存 根据 Topic 类 型 进行 分 组 。 

(2) Producer: 发 送 消息 者 。 

(3) Consumer: 接收 消息 者 。 

(4) broker: 每 个 Kafka 实例 (server). 

(5) Zookeeper: 依赖 集群 保存 meta 信息 。 

2. Kafka 架构 图 (如 图 7-4 所 示 ) 


producer producer 


| producer 


Kafka 
cluster 


consumer consumer consumer | 


7-4 Kafka 架构 模型 
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3. Kafka 的 安装 和 服务 发 布 

(1) 从 http: //Kafka.apache.org/downloads.html 下 载 Kafka_2.11-1.0.1.tgz 安装 包 。 
(2) 把 安装 包 解 压 到 指定 目录 : tar -zxvf /root/ Kafka 2.11-1.0.1 -C / usr/local/. 

(3) 修改 配置 文件 vi/usr/local/ Kafka 2.11-1.0.l/config/serverproperties， 有 具体 如 下 : 
HEN broker 的 编号 , 必须 唯一 且 不 能 重复 


broker.id=0 

# 处 理 网 络 请 求 的 线程 数量 
num.network.threads=3 

# 处 理 磁盘 请 求 的 线程 数量 
num.io.threads=8 

# 发 送 套 接 字 的 缓冲 区 大 小 
socket.send.buffer.bytes=102400 

# 接 受 套 接 字 的 缓冲 区 大 小 
socket.receive.buffer.bytes=102400 
# 数 据 存放 目录 
log.dirs=/tmp/Kafka-logs 

#topic 在 当前 broker 上 的 分 片 数 量 
num.partitions=1 

#segment 文件 保存 时 间 , 默 认 7 天 
log.retention.hours=168 

HER zookeeper 的 节点 
zookeeper.connect=192.168.16.100:2181 


(4) 分 发 安装 包 ， 命 令 : sep -r /usr/servers/ Kafka 2.11-1.0.1 hadoop02: /usr/local. 

(5) 修改 配置 文件 ， 依 次 修改 各 服务 器 上 配置 文件 的 brokerid， 不 得 重复 。 

(6) 启动 集群 ， 在 各 个 节点 运行 Kafka 命令 : bin/Kafka-server-start.sh 和 config/server. 
properties。 说 明 一 下 ， 运 行 Kafka 需要 使 用 zookeeper， 需 要 先 启动 zookeeper。 

(7) 启动 Kafka， 加 载 配置 文件 serverproperties 启动 服务 。 


bin/kafka-server-start.sh config/server.properties & 


(8) 创建 一 个 topic， 名 字 是 companytopic. 


bin/kafka-topics.sh --create --zookeeper hadoop: 2181 --replication- 


factor 1--partitions 1 --topic companytopic 


(9) 启动 一 个 消费 者 ， 并 监听 companytopic 主题 。 


bin/kafka-console-consumer.sh --zookeeper hadoop: 2181 --topic companytopic 


--from-beginning 
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733 创建 HBase 数据 库 和 Spark 环境 


(1) 创建 HBase 数据 库 ， 表 名 companySportAnalysis, FAK mnfo， 并 保存 运算 结果 。 


(2) 安装 Spark 2.2.0， 构 建 Spark 开发 环境 。 

O 下 载 安装 包 , 下 载 地 址 : http: /spark.apache.org/downloads html, 选择 spark-2.2.0- 
bin-hadoop2.7 版 本 。 

O 新 建安 装 目录 : /usrlocal。 


(3) 解压 tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz。 


@ 重 命名 mv spark-2.2.0-bin-hadoop2.7 spark. 

© 修改 配置 文件 vi spark-env.sh( 先 把 spark-env.sh.template 重 命名 为 spark-env.sh )。 
O 配置 Java 环境 变量 。 

export JAVA HOME=/usr/java 

#48 spark EARS Master 的 IP 

export SPARK MASTER HOST=hadoop 

# 指 定 spark 主 服务 Master 的 端口 

export SPARK MASTER PORT=7077 

#woker 使 用 1g 和 1 个 核心 进行 任务 处 理 

export SPARK WORKER CORES=1 


export SPARK WORKER MEMORY=1g 
slaves 修改 文件 


© 修改 文件 slaves: vi slaves (4648 slaves.template 重 命名 为 slaves). 


hadoop02 
hadoop03 


O 复制 到 其 他 节点 。 通 过 scp 命令 将 spark 的 安装 目录 复制 到 其 他 机 器 上 : 


scp -r/opt/bigdata/spark hadoop02:/usr/local 
scp -r/opt/bigdata/spark hadoop03:/usr/local 


O 配置 spark 环境 变量 。 
将 spark 添加 到 环境 变量 ， 添 加 以 下 内 容 到 /etc/profile: 


export SPARK HOME=/usr/local/spark 
export PATH=$PATH: $SPARK_HOME/bin 
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注意 ， 最 后 source /etc/profile 刷新 配置 。 
(9 启动 spark。 


HEX T A EHI spark, /opt/bigdata/spark/sbin/start-all.sh 


@ 上 传 文件 到 集群 并 执行 方法 。 


./spark-submit --class com.test.spark.project .CompanyStreamingApp --master 
local --executor-memory 1G --total-executor-cores 1 /root/spark.jar 


1 : o d 
1 :14 rkEn rir Outpu ul ir 
1 :1 tils y vi 


734 分 布 式 实 时 处 理 引擎 Spark Streaming 原理 及 数据 处 理 


Spark Streaming 类 似 于 Apache Storm， 用 于 流 式 数据 的 处 理 。 据 官方 介绍 ，Spark 
Streaming 有 高 吞吐 量 和 容错 能 力 强 等 特点 。Spark Streaming 支持 的 数据 输入 源 很 多 ， 
例如 Kafka, Flume, Twitter, ZeroMQ 和 简单 的 TCP BREESE. 数据 输入 后 可 以 用 Spark 
的 高 度 抽象 原 语 〈 如 map. reduce, join, window 等 ) 进行 运算 。 而 结果 也 能 保存 在 很 
多 地 方 ， 如 HDFS 和 数据 库 等 。 另 外 ，Spark Streaming 也 能 和 MLlib (机 器 学 习 ) 以 及 
Graphx 完美 融合 。Spark Streaming 的 基础 抽象 是 Discretized Stream， 表 示 持 续 性 的 数 
据 流 和 经 过 各 种 Spark 原 语 操作 后 的 结果 数据 流 。 

COD 在 内 部 实现 上 ，DStream 是 一 个 时 间 序 列 的 RDD。 每 个 RDD 含有 一 段 时 间 间 
隔 内 的 数据 ， 如 图 7-5 所 示 。 
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RDD @ time 1 RDD @time2 RDD @ time 3 ha @ time 4 


data from data from data from data from 
DStream | time Otol time 1to 2 - time 2 to3 time 3to4 > 


27-5 DStream 数据 模型 
(2) 对 数据 的 操作 也 是 以 RDD 为 单位 来 进行 ， 如 图 7-6 所 示 。 


lines =| lines from =| linesfrom | | linesfrom | _ | lines from > 
DStream time Oto 1 time 1to2 time 2 to3 time 3to4 
flatMap 
operation 


words _ | wordsfrom |__| wordsfrom | _ | wordsfrom | _ | words from > 
DStream time O to 1 time 1to 2 time 2t03 time 3t04 
El 7-6 DStream flatMap 操作 过 程 


G) 计算 过 程 是 由 Spark 引擎 来 进行 计算 的 ， 如 图 7-7 所 示 。 


input data batches of / batches of 
stream _ Spark input data, Spark processed data 
[ >| Streaming > Engine ooc> 


图 7-7 Spark 引擎 实现 计算 


(4) DStream 的 常用 操作 :对 Dstre DStream 的 操作 算 子 与 RDD 的 类 似 ， 分 为 
Transformations (转换 ) 和 Output Operations (HAHH) 两 种 ， 此 外 转换 操作 中 还 有 一 些 
比较 特殊 的 原 语 ， 如 updateStateByYKey0O 、transformO 以 及 各 种 Window 相关 的 原 语 。 具 
体操 作 如 表 7-1 所 示 。 

表 7-1 DStream 操作 算 子 表 
Ex 
对 DStream 中 的 每 个 元 素 应 用 给 定 函数 ， 返 回 由 各 元 素 组 成 


Transformation 算 子 


map (func) 的 DStream 

对 DStream 中 的 每 个 元 素 应 用 给 定 函数 ， 返 回 由 各 元 素 输 出 
的 选 代 器 组 成 的 DStream 
filter (func) 


返回 由 给 定 DStream 中 通过 筛选 的 元 素 组 成 的 DStream 
改变 DStream 的 分 区 数 

将 每 个 批 次 中 键 相同 的 记录 归 约 

将 每 个 批 次 中 记录 根据 键 分 组 


repartition (numPartitions ) 
reduceByKey (func, [numTasks]) 
groupByKey 


735 构建 BD RTPServer DP 工程 实现 数据 处 理 


(1) Sparkstreaming 流 式 处 理 引 擎 从 Kafka 服务 中 拉 取 数据 并 处 理 ， 首 先 构 建 
BD_RTPServer DP 工程 ， 实 现 数据 处 理 ， 代 码 架 构 如 图 7-8 所 示 。 
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+ C3BD RTPServer DP 
» D idea 
> Dout 
v Osr 
Y O main 
> Djava 
Y O scala 
Y E\comtestspark 
Y © dao 
© CompanyStepCountDAO 
Y [E domain 
@ Companylog 
f& CompanyStepCount 
v E project 
v E untils 
© DateUtils 
© ò HBaseUtils 
© CompanyStreamingApp 
® App 
» Ditest 
> [target 
[à BD RTPServer. DP.iml 
Im pom.xml 


图 7-8 BD RTPServer DP 工程 代码 架构 


(2) BD RIPServer DP 工程 的 配置 文件 pom， 代 码 如 下 : 


<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:// 
www.w3.0r9/2001/XMLSchema-instance" xsi:schemaLocation="http://maven. 
apache.org/POM/4.0.0 http://maven.apache.org/maven-v4 0 0.xsd"> 
<modelVersion>4.0.0</modelVersion> 
<groupId>com.test.spark</groupId> 
<artifactId>spark</artifactId> 
<version>1.0-SNAPSHOT</version> 
<inceptionYear>2008</inceptionYear> 
<properties> 
<scala.version>2.11.8</scala.version> 
<kafka.version>0.10.0.0</kafka.version> 
<spark.version>2.2.0</spark.version> 
<hadoop.version>2.7.2</hadoop.version> 
<HBase.version>1.2.0</HBase.version> 
</properties> 
<dependencies> 
<dependency> 
<groupId>org.apache.kafka</groupId> 
<artifactId> kafka 2.11</artifactId> 
<version>0.10.0.0</version> 
</dependency> 
<dependency> 
<groupId>org.apache.hadoop</groupId> 
<artifactId>hadoop-client</artifactId> 
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<args> 
«arg»-target:jvm-1.5«/arg» 
«/args» 
</configuration> 
</plugin> 
<plugin> 
<groupId>org.apache.maven.plugins</groupId> 
<artifactId>maven-eclipse-plugin</artifactId> 
<configuration> 
<downloadSources>true</downloadSources> 
<buildcommands> 
<buildcommand>ch.epfl.lamp.sdt.core.scalabuilder</buildcommand> 
</buildcommands> 
<additionalProjectnatures> 
<projectnature>ch.epfl.lamp.sdt.core.scalanature</projectnature> 
</additionalProjectnatures> 
<classpathContainers> 
<classpathContainer>org.eclipse.jdt.launching.JRE_CONTAINER 
</classpathContainer> 
<classpathContainer>ch.epfl.lamp.sdt.launching.SCALA CONTAINER 
</classpathContainer> 
</classpathContainers> 
</configuration> 
</plugin> 
</plugins> 
</build> 
<reporting> 
<plugins> 
<plugin> 
<groupId>org.scala-tools</groupId> 
<artifactId>maven-scala-plugin</artifactId> 
<configuration> 
<scalaVersion>${scala.version}</scalaVersion> 
</configuration> 
</plugin> 
</plugins> 
</reporting> 
</project> 


(3) Sparkstreaming 从 Kafka 拉 取 数 据 ， 代 码 实现 如 下 : 


import org.apache.kafka.clients.consumer.ConsumerRecord 

import org.apache. kafka.common.serialization.StringDeserializer 

import org.apache.spark.streaming. kafka. 

import org.apache.spark.streaming. kafka.LocationStrategies. 
PreferConsistent 
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import org.apache.spark.streaming. kafka.ConsumerStrategies.Subscribe 
val conf = new SparkConf () .setAppName ("CompanyStepCount") .setMaster 
("local[2]") 
val sc = new SparkContext (conf) 
// 设置 每 3 秒 切 分 一 次 RDD 
val ssc = new StreamingContext (sc, Seconds (3) ) 
// ”设置 Kafka 参数 , 从 Kafka 上 接收 数据 
val KafkaParams = Map[String, Object] ( 
"bootstrap.servers" -> "192.168.106.111:9000", 
"key.deserializer" -» classOf[StringDeserializer], 
"value.deserializer" -» classOf[StringDeserializer], 
"group.id" -» "example", 
"auto.offset.reset" -> "latest", 
"enable.auto.commit" ->(false:java.lang.Boolean) 
) 
// MAN companytopic 的 topic 中 拉 取 数据 
val topics = Array("companytopic") 
val lines = KafkaUtils.createDirectStream[String, String] ( 
SSC, 
PreferConsistent, 
Subscribe [String, String] (topics, KafkaParams) 
).map( .value()) 
// 测试 从 Kafka 接收 数据 , 并 进行 打印 


lines.print () 
(4) 开发 操作 HBase 数据 库 的 工具 类 ， 代 码 实现 如 下 : 


package com.test.spark.project.untils; 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.HBase.client.HBaseAdmin; 
import org.apache.hadoop.HBase.client.HTable; 
import org.apache.hadoop.HBase.client.Put; 
import org.apache.hadoop.HBase.util.Bytes; 
import java.io.IOException; 
/** 
* HBase 操作 工具 类 :Java 工具 类 建议 采用 单 例 模式 封装 
o 
public class HBaseUtils { 

HBaseAdmin admin = null; 

Configuration configration = null; 

ae 

* 私有 构造 方法 

private HBaseUtils() { 
// 指定 zookeeper 地 址 和 HBase 的 root dir 
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(5) 使 用 spark-streaming 完成 日 期 转换 和 数据 清洗 操作 ， 代 码 实现 如 下 : 


; o 
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val fields = line.split ("\t") 
// 取出 公司 序号 
val company = fields (2) 
// 先 把 公司 设 成 0 
var companyID = 0 
// WRAT Company 开头 ,用 “ ”进行 分 割 , 取出 下 画 线 后 面 的 数据 , 并 且 将 其 变 为 Int 类 型 
if (company.startsWith ("Company") ) { 
companyID = company.split(" ") (1) .toInt 
} 
CompanyLog (DateUtils.parseToMin (fields (0)), fields (1), companyID, 
fields (3), fields (4) .toInt, fields (5) .toDouble, fields (6) .toDouble) 
// 把 companyID 开头 为 0 的 ,不 是 以 Company 开头 的 脏 数据 过 滤 掉 
}) .filter (CompanyLog => CompanyLog.companyID != 0) 
// 把 清洗 后 的 数据 进行 打印 


.cleanLog.print () 


(6) 智能 终端 运动 数据 实体 类 定义 ， 代 码 实 现 如 下 : 


package com.test.spark.domain 
/** 

* 清洗 后 的 日 志 信息 

@param time 发 送信 息 的 时 间 
@param user 用 户 

@param companyID 公司 名 称 ID 
@param refer 发 送 源 

@param step 总 步 数 

@param stepsize 步 长 

@param calorie ”所 需要 的 卡路里 


*ox ok Ze 美 沉 


7 

case class CompanyLog (time: String, user:String, companyID: Int, refer:String, 
step:Int, stepsize:Double, calorie: Double) 

package com.test.spark.domain 


/** 
* 每 个 公司 步 数 实体 类 
* @param CompanyID 公司 ID 
* @param stepCount 公司 总 步 数 
M 
case class CompanyStepCount (CompanyID: String, stepCount:Int) 


(7) 智能 终端 运动 数据 对 象 的 DAO 层 的 开发 ， 代 码 实现 如 下 : 


package com.test.spark.dao 


import com.test.spark.domain.CompanyStepCount 
import com.test.spark.project.untils.HBaseUtils 
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import org.apache.hadoop.HBase.client.Get 
import org.apache.hadoop.HBase.util.Bytes 
import scala.collection.mutable.ListBuffer 
object CompanyStepCountDAO { 
val tableName = "companySportAnalysis" 
val cf = "info" 
val qulifer = "step count" 
11 保存 数据 并 按 rowkey 进行 累加 
def save (list:ListBuffer [CompanyStepCount]) :Unit = ( 
val table = HBaseUtils.getInstance () .getHtable (tableName) 
for (els <- list) { 
table.incrementColumnValue (Bytes.toBytes (els.CompanyID), 
Bytes.toBytes (cf) ‚Bytes.toBytes (qulifer),els.stepCount) 


} 
def Count (day companyID:String) :Long = { 
val table = HBaseUtils.getInstance () .getHtable (tableName) 
val get = new Get (Bytes.toBytes (day companyID)) 
val value = table.get (get) .getValue (Bytes.toBytes (cf) ‚Bytes.toBytes 
(qulifer)) 
if (value == null) { 
OL 
} else { 
Bytes.toLong (value) 


} 
// 进行 测试 
def main (args:Array[String]) :Unit = { 
val list = new ListBuffer [CompanyStepCount] 
list.append (CompanyStepCount ("20180401 1",300)) 
list.append (CompanyStepCount ("20180401 3",900)) 
list.append (CompanyStepCount ("20180401 8",200)) 
// save (list) 
print (Count ("20180401 10")+ "------ m E Count (T20rB0401 99) 4 ===== "EE 
Count ("20180401 8")) 


(8) 计算 每 个 公司 的 总 步 数 并 把 数据 保存 在 HBase 中 ， 代 码 实 现 如 下 


cleanLog.map (log => { 


(log.time.substring (0,8)+ " " + log.companyID,log.step) 
}) .reduceByKey(_ + _) -foreachRDD (rdd => 1 
rdd.foreachPartition (partions => { 
val list = new ListBuffer [CompanyStepCount] 
partions.foreach (pair => { 
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list.append (CompanyStepCount (pair. 1,pair. 2)) 
» 
// 把 数据 保存 在 HBase 上 


CompanyStepCountDAO.save (list) 
» 
H 


73.6 ”构建 BD_RTPServer_Boot 服务 实现 可 视 化 


(1) Spring Boot 构建 Web 项 目 ， 实 现 一 个 公司 内 所 有 人 员 的 总 步 数 统计 。 在 Idea 
中 新 建 Spring Boot 工程 如 图 7-9 所 示 。 


C JBoss 


Project SOx: [EE 18 Gava version 18.0 1613 ies 
dB ME % 
Choose Iritialzr Service URL. 
(9 Clouds 
Ø Spring (9 Default: htrpa//startapringio 
Wy Java FX O Custom: Fr 


S total Phorm Pogin Make sure your network connection is active before continuing. 


Maven 


(€ Grade 


® Groovy 
7) Griffon 


© Application Forge 
BE Scala 
K Kotin 


® Static Web 


[me ] conei || Help 
7-9 Spring Boot 构建 Web MA JDK 选择 


(2) 构建 Web 项 目 ， 选 择 JDK1.8 之 后 ， 选 择 依赖 ， 如 图 7-10 所 示 。 


Dependencies ^ Spring Bcor| 1.5.15 (SNAPSHOT) Y Selected Dependencies 
Core Web 
- Res o Web x 
Template Engines CI Rest Repositories 
sa [ Rest Repositories HAL Browser 
NoSQL O Hateoas 
Integration C Web Services 
Cloud Core O Jersey UAX-RS) 
Cloud Config Ol websocket 
Cloud Discovery C] REST Does 
Cloud Routing O Vaedin 
Cloud Circuit Breaker a 
C Apache OXF UAX-RS) 
Goud Tracing 
O Ratpack 
‘Cloud Messaging a 
coud aws cas 
Cloud Contract Web 
Pivotal Cloud Foundry Full-stack web development with Tomcat and Spring. 
Azure Dus 
Spring Cloud GCP fà bulding a RESTIu Web Sevice 
yo A Serving Web Content with Spring MVC 
es f puana nest senices wm 
ale al Help 


7-10 Spring Boot 构建 Web 项 目 依赖 选择 
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(3) 构建 BD_RTPServer Boot 工程 ,实现 一 个 公司 内 所 有 人 员 的 总 步 数 统计 服务 。 
在 Idea 中 新 建 Spring Boot 工程 ， 架 构 如 图 7-11 所 示 。 


v Djava 


v [EJ comstudysparkweb 
v Eldao 
@ © CompanyStepCountDAO 
+ El domain 
E) ò CompanyStepCount 
+ Eispark 
© © CompanyStepStatApp 
© * HelloBoot 
v Butils 
© d CompanyHBaseUtils 
@ ò SparkwebApplication 
v Da resources 
v Elstaticjs 
[i echarts.minjs 
[ik jqueryjs 
v È templates 
国 echarthtml 
国 testhtml 
[à application.properties 
[à BD. RTPServer Bootiml 
Im pom.xml 


El 7-11 BD RTPServer Boot 工程 架构 


(4) BD RIPServer Boot 工程 的 配置 文件 pom.xml， 代 码 实现 如 下 : 


<?xml version="1.0" encoding="UTF-8"?> 

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:// 
www.w3.0r9/2001/XMLSchema-instance" 

xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache. 
org/xsd/maven-4.0.0.xsd"> 

<modelVersion>4.0.0</modelVersion> 

<groupId>com.study.sparkweb</groupId> 

<artifactId>sparkweb</artifactId> 

<version>0.0.1-SNAPSHOT</version> 

<packaging>jar</packaging> 

<name>sparkweb</name> 

<description>Demo project for Spring Boot</description> 

<parent> 
<groupId>org.Springframework.boot</groupId> 
<artifactId>Spring-boot-starter-parent</artifactId> 
<version>1.5.8.RELEASE</version> 
<relativePath/><!-- lookup parent from repository --> 

</parent> 


«ls 
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(5) 在 rescources 的 static 中 新 建 一 个 js 文件 夹 ， 然 后 把 echarts.min.js 和 JQueryjs 
复制 到 文件 夹 内 。 这 两 个 文件 可 以 在 官网 上 下 载 。 
(6) 根据 天 来 获取 HBase 表 中 的 类 目 访问 次 数 ， 代 码 实现 如 下 : 


(7)  CompanyStepCount 定义 ， 实 现 公司 内 员工 步 数 统计 ， 代 码 实现 如 下 : 
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} 

public void setName (String name) { 
this.name = name; 

} 

public long getValue() { 
return value; 

} 

public void setValue (long value) { 
this.value = value; 


} 
(8) 类 Dao 层 CompanyStepCountDAO 定义 ， 代 码 实 现 如 下 : 


package com.study.sparkweb.dao; 


import com.study.sparkweb.domain.CompanyStepCount; 
import com.study.sparkweb.until.CompanyHBaseUtils; 
import org.Springframework.stereotype.Component; 
import java.util.ArrayList; 
import java.util.List; 
import java.util.Map; 
@Component 
public class CompanyStepCountDAO { 
/** 
* 根据 天 查询 
E 
public List«CompanyStepCount» query(String day)throws Exception ( 
List<CompanyStepCount> list = new ArrayList<>(); 
//  HBase 表 中 根据 day 获取 每 个 公司 对 应 的 步 数 
Map<String,Long> map = CompanyHBaseUtils.getInstance () .query 
("companySportAnalysis","20180607"); 
for (Map.Entry<String,Long> entry:map.entrySet ()) { 
CompanyStepCount model = new CompanyStepCount (); 
model . setName (entry.getKey()); 
model .setValue (entry.getValue ()); 
list.add (model); 
} 
return list; 
} 
// 进行 单元 测试 
public static void main(String[] args)throws Exception{ 
CompanyStepCountDAO dao = new CompanyStepCountDAo (); 
List<CompanyStepCount> list = dao.query ("20180607"); 
for (CompanyStepCount model:list) { 
System.out.println (model .getName ()+ ":" + model .getValue ()); 
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(9) 公司 实时 查询 展示 ， 代 码 实 现 如 下 : 


package com.study.sparkweb.spark; 


import com.study.sparkweb.dao.CompanyStepCountDAO; 
import com.study.sparkweb.domain.CompanyStepCount; 
import org.Springframework.beans.factory.annotation.Autowired; 
import org.Springframework.web.bind.annotation.RequestMapping; 
import org.Springframework.web.bind.annotation.RequestMethod; 
import org.Springframework.web.bind.annotation.ResponseBody; 
import org.Springframework.web.bind.annotation.RestController; 
import org.Springframework.web.servlet .ModelAndView; 
import java.util.HashMap; 
import java.util.List; 
import java.util.Map; 
@RestController 
public class CompanyStepStatApp { 
private static Map<String,String> company = new HashMap<>(); 
static { 
company.put ("1", "A 公司 ") ; 
company.put ("2","B 公司 "); 
company.put ("3","C 公司 "); 
company.put ("4","D 公司 "); 
company.put ("5","E 公司 "); 
company.put ("6","F 公司 "); 
} 
@Autowired 
CompanyStepCountDAO companyStepCountDAO; 
@RequestMapping (value = "/company step count",method = Request Method. 
POST) 
GResponseBody 
public List<CompanyStepCount> companyStepCount () throws Exception { 
List«CompanyStepCount» list = companyStepCountDAO.query 
("20180607"); 
for (CompanyStepCount model:list) { 
model . setName (company. get (model .getName () .substring(9))); 
} 
return list; 
} 
@RequestMapping (value = "/echart",method = RequestMethod.GET) 
public ModelAndView echarts() { 
return new ModelAndView ("echart") ; 
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(10) 页 面 调用 数据 并 进行 展示 ， 代 码 实现 如 下 : 


" 
天 数据 架构 之 道 与 项 目 实 成 了 


async:false, 
success: function (result) { 
for (var i=0;i<result.length; i++) { 
datas.push(("value":result[i].value, 


"name": result [i] .name}) 


}) 
return datas; 
//\\> 
HO, 
itemStyle:{ 
emphasis: { 
shadowBlur:10, 
shadowOffsetX:0, 
shadowColor: 'rgba(0,0,0,0.5)" 


n 
// 使 用 刚 指 定 的 配置 项 和 数据 显示 图 表 
myChart.setOption (option); 
</script> 
</body> 
</html> 


C11) 打开 页 面 localhost: 8080/echart， 统 计 可 视 化 界面 如 图 7-12 所 示 。 


公司 运动 实时 步 数 统计 
公司 步 数 


A 公司 


B 公 司 


7-12 ”实时 统计 公司 员工 总 步 数 的 可 视 化 展示 
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74 WANS 


本 章 介绍 了 实时 处 理 服务 的 开发 方法 ， 从 Flume 采集 体检 数据 文件 后 ， 输 出 Kafka 
E, 之 后 消息 主题 发 送 给 SparkStreaming 中 间 件 ， 进 行 数据 处 理 和 统计 ， 最 后 数据 统计 
结果 进入 HBase 数据 库 。 这 是 实时 计算 的 典型 流程 ， 可 以 推广 到 其 他 业务 上 。 最 后 借 
助 echart 可 视 化 工具 实现 了 智能 终端 运动 数据 统计 , 这 是 目前 常用 的 数据 展示 方式 , 还 
有 很 多 主流 的 大 数据 可 视 化 工具 ， 请 读者 自行 学 习 ， 不 在 本 章 资 述 。 


eJ E 


大 数据 智能 分 析 
微服 务 引擎 
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架构 之 道 分 享 之 八 : 孙子 兵法 的 《虚实 篇 》 提 出 了 善于 应 用 多 种 方式 调动 敌人 ， 
使 敌人 力量 分 散 或 者 出 现 薄弱 点 ， 然 后 集中 优势 兵力 进行 避 实 击 虚 。 运 用 到 项 目 上 ， 
数据 集 构 建 和 特征 选择 是 提升 分 析 准确 率 的 有 效 手 段 , 机 器 学 习 专家 要 善于 工程 处 理 
和 算法 设计 ， 灵 活 应 用 算法 框架 来 提升 敏感 度 和 特异 性 。 


k 掌握 机 器 学 习 的 技术 原理 和 常用 分 类 算法 理论 知识 
k 掌握 分 类 算法 在 项 目 中 的 实战 方法 
女 掌握 Spark 架构 原理 和 Mlib 库 在 机 器 学 习 中 的 实战 技巧 


8.1 核心 需求 分 析 和 优秀 解决 方案 


大 数据 智能 分 析 服 务 引 擎 是 大 数据 技术 和 物 联网 等 业务 领域 结合 的 必然 产物 , 给 各 
机 构 和 用 户 带 来 了 不 同 程度 的 价值 提升 ， 不 仅 可 以 指导 用 户 实 现 个 性 化 锻炼 和 合理 饮 
R, 而 且 帮 助 专业 机 构 按 需 实现 数据 共享 和 经 营 辅助 决策 。 国内 众多 顶级 互联 网 公司 参 
与 了 物 联网 项 目 ， 致 力 于 医疗 、 健 康 、 养 老 和 车 联网 等 典型 应 用 ， 建 设 了 大 数据 智能 分 
析 服 务 ， 让 社会 的 优质 资源 达到 了 合理 分 配 和 高 效 利 用 。 近 几 年 可 穿戴 设备 和 大 数据 的 
迅猛 发 展 ， 催 生 了 互联 网 + 物 联网 的 一 系列 应 用 和 大 数据 数据 中 心 ， 这 些 数据 中 心 的 涵 
盖 了 异 构 多 源 的 物 联网 大 数据 ， 具 备 了 海量 、 多 变性 、 时 效 性 、 真 实 性 等 诸多 特征 ， 如 
何 借助 工程 服务 和 机 器 学 习 算 法 , 构建 一 个 大 数据 智能 分 析 服 务 引 擎 , 快速 时 化 各 种 新 
型 应 用 是 本 章 要 阐述 的 内 容 。 在 物 联 网 行业 , 常见 的 大 数据 智能 分 析 服 务 引擎 包括 健康 
疾病 预测 、 体 检 花 费 预 测 、 慢 病 趋势 分 析 、 关 键 影 响 因 子 发 现 和 协同 过 滤 推 荐 等 。 本 章 
针对 一 些 物 联网 大 数据 进行 用 户 体检 费用 预测 、 疾 病 预测 、 药 品 推荐 等 服务 构建 ， 有 效 
指导 相关 机 构 实现 资源 优质 化 配置 。 


82 ”服务 引擎 的 技术 架构 设计 


大 数据 智能 分 析 服 务 引擎 包括 5 个 核心 模块 ， 如 图 8-1 所 示 ， 每 一 个 模块 的 设计 
和 实现 中 ,不仅 要 考虑 数据 源 的 数据 格式 灵活 转换 ， 而 且 要 保证 分 析 服 务 的 通用 性 和 
可 复 用 ， 有 具体 说 明 如 下 。 

(1) 核心 模块 一 : 介绍 机 器 学 习 基 本 原理 ， 详 细 逆 述 逻 辑 回 归 、SVM、 决 策 树 等 
分 类 算法 原理 。 

(2) 核心 模块 二 : 介绍 基于 RDD 的 Spark 架构 和 原理 ， 深 入 Mlib 算法 库 讲 解 。 
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大 数据 智能 分 析 服务 引擎 


图 8-1 大 数据 智能 分 析 服 务 引擎 的 模块 化 设计 


(3) 核心 模块 三 : 借助 分 类 算法 ， 针 对 体检 数据 集 的 323 个 特征 ， 采 用 决策 树 、 罗 
辑 回归 和 随机 森林 算法 预测 体检 费用 。 

(4) 核心 模块 四 : 借助 SVM 分 类 算法 ， 针 对 体检 数据 样本 ， 预 测 某 种 疾病 的 患 病 
概率 。 

(5) 核心 模块 五 : 借助 协同 过 滤 推 荐 算法 , 针对 用 药 数据 样本 , 实现 辅助 药品 推荐 。 


n 


8.38 核心 机 器 学 习 算法 讲解 和 应 用 


机 器 学 习 是 一 门 交 叉 学 科 ， 涉 及 概率 论 学 、 算 法 复杂 度 、 工 程 学 、 计 算 机 科学 和 数 
据 挖掘 等 多 门 学 科 , 它 也 是 人 工 智能 领域 的 一 个 重要 分 支 ， 其 原理 是 能 够 从 历史 数据 中 
提取 关键 特征 并 进行 推理 预测 。 机 器 学 习 分 为 监督 学 习 、 非 监督 学 习 、 半 监督 学 习 和 强 
化 学 习 。 监 督学 习 是 给 定 了 一 组 带 分 类 标签 的 样本 集 ， 学 习 出 一 个 函数 ， 当 新 的 数据 到 
来 后 , 可 以 根据 已 知 函 数 预测 出 新 数据 的 分 类 标签 , 常用 的 监督 学 习 算 法 包括 回归 和 分 
类 。 无 监督 学 习 是 有 一 组 没有 带 分 类 标签 的 样本 集 , 通过 机 器 学 习 得 到 数据 分 类 ,然后 
对 正确 分 类 行为 进行 激励 ,常用 的 无 监督 学 习 算法 如 聚 类 等 。 半 监督 学 习 就 是 对 少量 已 
标注 样本 和 大 量 未 标注 样本 进行 训练 和 分 类 , 提升 学 习 能 力 。 强化 学 习 就 是 一 种 以 环境 
反馈 作为 输入 的 方法 , 学 习 对 象 以 周围 环境 的 反馈 为 依据 做 出 判断 , 常用 的 强化 学 习 如 
机 器 人 控制 等 。 其 中 分 类 算法 应 用 占据 了 全 部 机 器 学 习 算法 的 半壁 江山 , 接 下 来 重点 介 
绍 分 类 器 的 原理 和 实践 。 


8.3.1 逻辑 回归 的 原理 分 析 
回归 分 析 是 数据 挖掘 中 的 一 种 重要 方法 ， 是 对 具有 因果 关系 的 影响 因素 〈 自 变量 ) 


3H s 
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和 预测 对 象 〈 因 变量 ) 所 进行 的 数理 统计 分 析 处 理 ， 旨 在 确定 两 种 或 两 种 以 上 变量 间 
相互 依赖 的 定量 关系 ， 主 要 用 于 预测 、 分 类 和 因素 分 析 。 回 归 分 析 的 基本 原理 是 找到 
反映 输入 变量 和 输出 变量 间 关 系 的 回归 方程 ， 利 用 回归 方程 完成 预测 、 分 类 和 因素 分 
析 的 任务 。 

逻辑 回归 (Logistic Regression) 是 回归 分 析 的 一 种 ， 主 要 用 来 做 分 类 ， 适 用 于 二 分 
类 问题 ， 可 以 推广 到 多 分 类 问题 。 

B aoto oe HARER, A 是 样本 输入 ，ye{0,D 是 样本 所 属 类 
别 。 逻 辑 回 归 的 输出 是 (0.1) 区 间 上 的 一 个 值 ， 表 示 样 本 属于 某 个 类 别 的 概率 。 


Pfy =1|x,,x>,**",x,) € (0,1) (D 
引入 单调 、 任 意 阶 可 导 函 数 Sigmoid， 如 图 8-2 所 示 。 
s= — (2) 
l+e 


-5 -4 -3 2 -1 0 1 2 3 4 5 
图 8-2 Sigmoid 函数 曲线 


4x Ho 4H, S(x)H0o1. 


P(y- lxxx oL 3) 
进一步 对 z 进行 线性 回归 : 
i=1,2,---,N 
其 中 o,i=0,1--,n 为 权 值 。 
得 到 回归 模型 : 
P(y- nu) = eT a» 
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K 
FO yO) m0 -PYP =1110,,x0,,--,x0,3)  yOln(P(9 — 1369,30, ..., 40,39] 
i=l 


最 大 化 , 得 到 权 值 w,z= 0,2…,m 。 其 中 天 是 样本 总 数 ，y@ e (0, 是 第 i 个 样本 的 类 别 ， 
(x9, x9, ,---,xO,} 是 第 i 个 样本 的 输入 。 

推广 到 多 分 类 问题 , 一 种 解决 方法 是 对 每 个 类 别 c 都 建立 一 个 二 分 类 回归 模型 ,用 
来 计算 样本 属于 类 别 c 和 不 属于 类 别 c 的 概率 ,最 终 比 较 样本 属于 各 类 别 的 概率 ， 取 最 
大 的 即 可 。 


83.2 支持 向 量 机 原理 分 析 


支持 向 量 机 是 由 Vapnik 等 人 提出 的 一 种 机 器 学 习 算 法 ， 在 解决 小 样本 、 非 线性 及 
高 维 模式 识别 中 表现 出 独特 的 优势 , 并 逐步 推广 到 函数 拟 合 等 其 他 机 器 学 习 问 题 中 。 其 
主要 思想 是 将 低 维 空间 的 样本 通过 非 线性 变换 映射 到 高 维 空间 , 从 而 将 低 维 空间 的 线性 
不 可 分 问题 转化 为 高 维 空间 的 线性 可 分 问题 .具体 实现 是 用 低 维 空间 中 满足 一 定 条 件 的 
核 函 数 实现 高 维 空间 中 的 内 积 运算 ， 从 而 构造 高 维 空间 中 的 最 优 分 类 超 平 面 , 达到 分 类 
目的 。 

支持 向 量 机 是 扩展 的 线性 分 类 器 ， 如 图 8-3 所 示 , 线性 分 类 器 是 用 一 个 超 平面 将 不 
同类 别 的 样本 分 开 ， 图 中 各 超 平面 都 能 将 两 类 样本 分 开 ， 但 中 间 的 超 平面 鲁 棒 性 最 好 ， 
泛 化 能 力 最 强 。 支 持 向 量 机 是 通过 最 优化 的 方法 ,找到 那个 鲁 棒 性 最 强 、 泛 化 能 力 最 好 
的 超 平面 。 


图 8-3 ”线性 分 类 器 


如 图 8-4 所 示 ， 要 找到 两 个 相互 平行 的 分 隔 超 平面 ， 使 得 类 别 1 中 的 点 到 它 的 距离 
大 于 等 于 1， 类 别 -1 中 的 点 到 它 的 距离 小 于 等 于 -1， 两 个 类 别 中 最 靠近 分 隔 超 平面 的 
点 称 为 支持 向 量 。 

对 于 线性 不 可 分 的 分 类 问题 ,采用 的 方法 是 将 样本 从 原始 空间 映射 到 一 个 更 高 维 的 
特征 空间 , 使 样本 在 这 个 特征 空间 内 线性 可 分 。 通 过 选择 恰当 的 核 函 数 ， 实现 高 维 空间 
中 向 量 间 的 内 积 运算 ， 进 一 步 求 得 分 隔 超 平面 。 具 体 过 程 如 下 : 
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^. Margin=2/\w'w 


e 
e L] 
e 
nn A Me Henne 一 
Support Vector ^^ A 
E a ,$ Support Vector > 
. e 
5 = . 
wxceb-- 
wix+b=0 n ! 
E | L] 
wx+b=+1 ' e. 


图 8-4 支持 向 量 机 原理 图 示 


设 样 本 向 量 为 5S,,i=1,2,…,N ，S, e R” ，N 为 样本 个 数 。 每 个 样本 属于 mm,o 之 一 ， 
He RRE, ES ¡ea We, =-1; 若 Ssw， 则 c=1。 

(1) 输入 样本 向 量 及 其 所 属 类 别 (S,,c) ，i=12,…,N ， 用 以 建立 分 类 模型 。 

(2) 指定 核 函数 天 (Si,S,) KM. 

G) 得 到 判别 函数 ， 通 过 计算 函数 系数 a 和 pb*， 就 可 以 确定 这 个 超 平面 的 方程 : 

fG)- Ya'K(5,5, )+b' 
i=l 

其 中 w 通过 解 下 列 约束 优化 问题 得 到 ; 


N UN 
max H(a) = Ya, 322 4,%4,K(8,,5,) 
¡al 


i=l j=l 


subject to Soa =0,a, >0,i=1,--,N 
(4) AEREA, 得 到 最 优 Lagrange RT a' 。 
(5) 利用 样本 库 中 的 一 个 支持 向 量 Si 和 判别 函数 ， 可 得 到 偏差 值 b : 
b SS) Lea’ KS, Sj) 
利用 生成 的 判别 函数 可 以 进行 样本 的 分 类 。 
8.3.3 决策 树 原理 分 析 


决策 树 是 用 于 分 类 和 预测 的 一 种 树 结构 ， 决 策 树 方法 常用 于 类 别 属性 的 数据 集 的 分 
类 和 预测 ， 对 于 数值 属性 的 数据 集 ， 可 以 经 过 数据 预 处 理 后 使 用 。 

决策 树 的 建立 是 基于 样本 的 递归 的 学 习 过 程 ， 每 个 样本 都 是 具有 确定 的 属性 的 数 
Pi, 决策 树 就 是 基于 样本 的 各 属性 建立 起 来 的 。 决 策 树 分 为 根 节 点 、 内 部 节点 和 叶 节点 。 
从 根 节 点 出 发 ， 自 项 向 下 ， 构 建 分 支 和 内 部 节点 ， 在 内 部 节点 进行 属性 值 的 比较 ， 并 根 
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据 属性 的 不 同 取 值 确定 从 该 节点 向 下 的 分 支 ， 最终 在 叶 节 点 给 出 类 别 。 整 棵 树 就 是 一 个 
规则 集 , 任意 样本 都 可 以 从 根 节点 出 发 , 根据 样本 各 属性 的 取 值 ， 找 到 对 应 的 树 中 的 分 
x (规则 )， 从 而 得 到 样本 的 类 别 。 

具体 方法 是 : 选择 一 个 属性 置 于 根 节点 , 根据 这 个 属性 的 不 同 取 值 将 测试 样本 集 划 
分 成 多 个 子 集 ， 一 个 子 集 对 应 一 个 属性 取 值 ， 然 后 在 每 个 分 支 上 递归 地 重复 这 个 过 程 ， 
直到 在 一 个 节点 上 的 所 有 样本 具有 相同 的 类 别 ， 即 到 达 叶 子 结 点 。 

在 上 述 构 建 方法 中 ,关键 的 问题 在 于 如 何 选择 在 根 节点 、 中 间 节 点 进行 划分 的 属性 。 
一 个 基本 的 原则 是 构建 较 小 的 决策 树 , 使 得 上 述 递 归 的 过 程 尽早 停止 , 即 尽早 完成 分 类 。 
要 达到 上 述 目的 , 需要 度量 每 个 节点 对 应 的 样本 子 集 的 纯度 , 即 样本 子 集中 类 别 分 布 的 
情况 ， 类 别 数 越 少 ， 各 类 别 分 布 越 不 均匀 ， 纯 度 越 高 。 信 息 粹 (entropy〉 是 度量 集合 
纯度 的 最 常用 的 一 种 指标 ， 定 义 如 下 : 

设 当 前 样本 集合 D 中 第 类 样本 所 占 比例 为 p; JU D FAENA 


四 
Ent(D) =—> p, log, py 
ka 


Ent(D) 的 值 越 小 ， 则 D 的 纯度 越 高 。 

在 选择 划分 属性 时 ,分 别 计算 上 一 级 节点 对 应 的 样本 子 集 的 信息 炉 和 选择 各 属性 划 
分 后 该 样本 子 集 的 信息 焙 , 二 者 差 值 (信息 增益 ) 最 大 划分 的 对 应 的 属性 即 为 划分 属性 。 

决策 树 构 建 流程 如 下 : 

输入 : IEE D = {a 94), Q3 33s am Im) 

属性 集 4= {a,,ay,---,a;} 

生成 树 : TreeGenerate(D, A) 

(1) 生成 节点 node. 

(2) 开刀 中 样本 全 属于 同一 类 别 C 

将 node 标记 为 C 类 叶 节 点 

end if 

(3) If A=Ø orD 中 样本 在 4 上 取 值 相同 ，then 

将 node 标记 为 叶 节 点 ， 其 类 别 标记 为 D 中 样本 数 最 多 的 类 


end if 
(4) 从 4 中 选择 最 优 划 分 属性 a 


for a 


opt 
ope 的 每 一 个 属性 值 ceo do 
X node 生成 一 个 分 支 ，D, EE D PE a 
If D， 为 空 ，then 

将 分 支 节点 标记 为 叶 节 点 ， 其 类 别 标记 为 D 中 样本 最 多 的 类 


EREN ap 的 样本 集合 


opt 


else 
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以 TreeGenerate(D,.A\ {aop}) 为 分 支 节点 
end if 


end for 


输出 : 以 node 为 根 节点 的 一 棵 决策 树 。 
834 聚 类 算法 原理 分 析 


聚 类 算法 通常 按照 中 心 点 或 者 分 层 的 方式 对 输入 数据 进行 归并 。 聚 类 算法 都 试图 找 
到 数据 的 内 在 结构 ， 以 便 按 照 最 大 的 共同 点 将 数据 进行 归 类 。 常 见 的 聚 类 算法 包括 
k-Means 算法 以 及 期 望 最 大 化 算法 EM。 聚 类 算法 属于 非 监督 式 学 习 ， 通 常 被 用 于 探索 
性 的 分 析 ， 就 是 “ 物 以 类 聚 ”的 原理 ， 将 本 身 没 有 类 别 的 样本 聚集 成 不 同 的 组 ， 一 组 数 
据 对 象 的 集合 叫 作 簇 , 并 且 对 每 一 个 这 样 的 簇 进行 描述 的 过 程 。 它 的 目的 是 使 得 属于 同 
一 簇 的 样本 之 间 应 该 彼此 相似 , 而 不 同 簇 的 样本 应 该 足够 不 相似 , 应 用 案例 包括 用 户 画 
像 、 用 户 行为 分 析 、 价 值 评 估 。Mlib 目前 支持 广泛 使 用 的 k-Means 聚 类 算法 。 案 例 ; 
导入 上 班 族 的 智能 终端 运动 行为 训练 数据 集 , 使 用 k-Means 对 象 来 将 数据 聚 类 到 多 个 类 
簇 当中 ， 所 需 的 类 簇 个 数 会 被 传递 到 算法 中 ,然后 计算 集 内 均 方差 总 和 ， 可 以 通过 增加 
类 簇 的 个 数 k 来 减 小 误差 。k-Means 算法 中 最 简单 的 就 是 基于 距离 的 聚 类 算法 ， 采 用 距 
离 作为 相似 性 的 评价 指标 ， 即 认为 两 个 对 象 的 距离 越 近 ， 其 相似 度 就 越 大 。 该 算法 认为 
类 簇 是 由 距离 靠近 的 对 象 组 成 的 , 因此 把 得 到 紧凑 且 独 立 的 簇 作为 最 终 目标 。 核心 思想 
是 : 通过 和 迭代 寻找 k 个 类 徐 的 一 种 划分 方案 , 使 得 用 这 个 类 簇 的 均值 来 代表 相应 各 类 
样本 时 所 得 的 总 体 误差 最 小 。k 个 聚 类 具有 以 下 特点 : 各 聚 类 本 身 尽 可 能 的 紧凑 ， 而 各 
聚 类 之 间 尽 可 能 的 分 开 。k-Means 算法 基础 是 最 小 误差 平方 和 准则 。 


835 关联 规则 算法 原理 分 析 


关联 规则 学 习 通过 寻找 最 能 够 解释 数据 变量 之 间 关 系 的 规则 ,来 找 出 大 量 多 元 数据 
集中 有 用 的 关联 规则 。 常 见 算法 包括 Apriori 算法 和 Eclat 算法 等 。 我 们 使 用 FP-growth 
算法 来 高 效 发 现 频繁 项 集 ， 方 法 是 将 数据 集 存储 在 一 个 特定 的 称 作 FP 树 的 结构 之 后 发 
现 频繁 项 集 或 者 频繁 项 对 ， 即 常 在 一 块 出 现 的 元 素 项 的 集合 FP 树 ， 这 种 做 法 使 算法 的 
执行 速度 要 快 于 Apriori, 通常 性 能 要 好 两 个 数量 级 以 上 。FP-growth 算法 的 工作 流程 是 : 
首先 构建 FP 树 ， 然 后 利用 它 来 挖掘 频繁 项 集 。 为 构建 FP 树 ， 需 要 对 原始 数据 集 扫 描 
两 遍 。 第 一 遍 对 所 有 元 素 项 的 出 现 次 数 进行 计数 ， 去 掉 不 满足 最 小 支持 度 的 元 素 项 , E 
成 这 个 头 指针 表 。 数据 的 第 一 遍 扫描 用 来 统计 出 现 的 频率 , 而 第 二 遍 扫描 中 只 考虑 那些 
频繁 元 素 。 


83.6 协同 过 滤 原理 分 析 
协同 过 滤 Collaborative Filtering 就 是 给 用 户 推荐 相似 的 物品 或 者 人 ， 协 同 过 滤 算 法 
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又 分 为 基于 用 户 的 协同 过 滤 算 法 和 基于 物品 的 协同 过 滤 算 法 。 用 户 偏好 具有 相似 性 ， 即 
用 户 可 分 类 。 这 种 分 类 的 特征 越 明显 ， 推 荐 准确 率 越 高 。 物 品 之 间 具 有 相似 性 ， 即 偏好 
某 物 品 的 人 ， 都 很 可 能 也 同时 偏好 另 一 件 相 似 物 品 。CF 常用 方法 有 3 种 ， 分 别 是 欧式 
距离 法 《计算 每 两 个 点 的 距离 )、 皮 尔 逊 相关 系数 法 和 余弦 相似 度 法 。 皮 尔 逊 相关 系数 
是 指 : 两 个 变量 之 问 的 相关 系数 越 高 ， 从 一 个 变量 去 预测 另 一 个 变量 的 精确 度 就 越 高 ， 
这 是 因为 相关 系数 越 高 ,就 意味 着 这 两 个 变量 的 共 变 部 分 越 多 , 所 以 从 其 中 一 个 变量 的 
变化 就 可 越 多 地 获知 另 一 个 变量 的 变化 。 如 果 两 个 变量 之 间 的 相关 系数 为 1 或 -1， 那 
么 你 完全 可 由 变量 和 去 获知 变量 Y 的 值 。 当 相关 系数 为 0 时 ，X 和 YY 两 变量 无 关系 。 
相关 系数 的 绝对 值 越 大 ， 相 关 性 越 强 ， 相 关系 数 越 接近 于 1 和 -1。 余 弦 相 似 度 法 是 指 : 
两 个 向 量 有 相同 的 指向 时 ， 余 弦 相 似 度 的 值 为 1; 两 个 向 量 夹 角 为 90" 时 ， 余 弦 相 似 度 
的 值 为 0; 两 个 向 量 指向 完全 相反 的 方向 时 ， 余 弦 相 似 度 的 值 为 -1。 算 法 思路 : 首先 构 
建物 品 的 同 现 矩 阵 ， 然 后 构建 用 户 对 物品 的 评分 和 矩阵， 最 后 通过 失 阵 计算 得 出 推荐 结果 ， 
其 中 推荐 结果 就 是 要 户 评分 矩阵 与 同 现 和 矩阵 的 乘积 。 


8.4 Spark 架构 原理 与 数据 预测 


Spark 是 基于 弹性 分 布 式 数据 集 RDD 的 采用 内 存 计算 的 并 行 计算 框架 ， 是 对 
Hadoop MapReduce 框架 改进 升级 后 的 迭代 计算 框架 。MapReduce 在 处 理 复杂 数据 处 理 
任务 时 会 遇 到 严重 的 磁盘 频繁 读 写 性 能 瓶颈 , Spark 逐步 成 为 了 MapReduce 的 数据 处 理 
优秀 蔡 代 者 ， 得 益 于 遵循 摩尔 定律 的 内 存 高 速 发 展 。 在 与 Hadoop 结合 方面 ， 可 以 兼容 
Hadoop 的 HDFS, HBase. Hive 等 分 布 式 存储 系统 。 有 具备 特性 说 明 如 下 。 

COD 优秀 的 数据 批 处 理 框架 : 在 进行 MapReduce 数据 批 处 理 时 ， 作 业 任 务 需 要 读 
取 HDFS 文件 作为 数据 输入 进行 聚合 ， 而 统计 输出 的 结果 也 要 存储 到 HDFS 上 。 如 果 
是 一 次 数据 处 理 需 要 运行 多 个 MapReduce 作业 ， 其 中 间 结 果 通 过 HDFS 保存 与 传递 ， 
如 果 是 多 次 HDFS 读 写 操作 ,会 产生 VO 读 写 效率 低 和 处 理 时 间 长 的 瓶颈 。 但 是 ， 如 果 
采用 Spark 进行 数据 批 处 理 时 , RLA MapReduce 作业 任务 的 是 一 个 Spark 作业 程序 ， 
不 仅 可 以 缩短 作业 的 申请 、 资 源 分 配 过 程 ,而 且 把 作业 执行 时 的 中 间 结 果 可 保存 于 内 存 
中 ,减少 HDFS 的 读 写 次 数 ， 从 而 减少 了 磁盘 读 写 开销 ， 大 幅 缩短 数据 处 理 时 间 ， 提 
高 了 数据 处 理 效率 。 

(2) 高 可 扩展 的 编程 接口 : 相 比 MapReduce 编程 模型 , Spark 提供 了 更 为 灵活 的 DAG 
编程 模型 。 DAG 编程 模型 不 仅 包 含 了 map, reduce 接口 , 还 增加 了 filter, flatMap, union 
等 操作 接口 , 使 得 编写 Spark 程序 更 为 方便 。 Spark 提供 了 编程 语言 Java、 Scala、 Python, 
R 的 API， 以 及 SQL 的 支持 ， 支 持 开 发 者 编写 Spark 程序 。 同 时 还 提供 了 Spark Shell 
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以 支持 用 户 进行 交互 式 编程 。 

3) 多 源 异 构 数据 处 理 : Spark 支持 数据 批 处 理 ， 还 支持 流 式 数据 处 理 、 复 杂 分 析 
(包括 机 器 学 习 、 图 计算 )、 交 互 式 数 据 查 询 (包括 SQL). Spark 可 以 运行 , 或 者 在 Hadoop 
Yarn 集群 管理 器 , 兼容 Hadoop 已 有 的 各 种 数据 类 型 , 支持 多 种 数据 源 , 如 HDFS、 Hive, 
HBase、Parquet 等 。 

Spark 应 用 程序 是 由 一 个 驱动 程序 Driver Program 和 多 个 任务 组 成 的 ， 它 们 都 运行 在 
一 组 进程 上 ， 这 些 进程 分 布 在 Worker 节点 上 并 被 Driver Program 的 进程 协调 管理 ， 一 个 
Spark 应 用 由 一 个 驱动 程序 和 多 个 执行 器 Executor 构成 , 驱动 程序 中 的 SparkContext 对 象 
负责 协调 管理 多 个 Executor， 而 一 个 Executor 可 以 执行 多 个 任务 Task， 并 可 以 将 数据 
保存 在 缓存 中 。 每 个 Spark 应 用 所 拥有 的 Executor 进程 是 独立 的 , 这 些 执行 器 进程 会 随 
着 Spark 应 用 的 运行 而 运行 ， 并 且 通 过 多 线程 的 方式 运行 任务 Task， 如 图 8-5 所 示 。 


Driver Program 


~ 一 Cluster Manager 


图 8-5 Spark 应 用 程序 执行 流程 


Spark 应 用 程序 的 执行 流程 如 下 : 首先 当 一 个 应 用 提交 后 ， 系 统 启动 一 个 驱动 程序 
Driver Program， 并 创建 一 个 SparkContext 对 象 。 然 后 SparkContext 对 象 连接 集群 管理 
器 (不 同 模式 集群 的 管理 器 不 同 ， 如 Standalone 模式 、Yam ist. Mesos 模式 ) 分 配 资 
源 ， 连 接 之 后 分 配 到 多 个 用 来 计算 和 存储 数据 的 执行 器 Executor。 接 着 SparkContext 
对 象 将 用 户 提交 的 程序 代码 (JAR 或 Python 文件 ) 发 送 给 执行 器 Executor， 最 后 在 执 
行 器 Executor 上 运行 从 SparkContext 上 发 送 来 的 任务 Task。 

使 用 分 布 式 内 存 存 放 待 处 理 数 据 和 优化 数据 处 理 过 程 是 Spark 数据 处 理 效率 得 到 
提高 的 主要 因素 ， 称 为 未 雨 绸 绎 。 在 Spark 中 分 布 式 内 存 数据 进行 了 抽象 ， 称 为 弹性 分 
布 式 数据 集 RDD. RDD 是 Spark 中 核心 的 数据 结构 ， 所 有 数据 处 理 操作 都 围绕 RDD 
进行 。 数 据 操作 即 是 对 RDD 的 转换 处 理 ， 把 一 个 RDD 转换 为 另 一 个 新 的 RDD。 一 个 
Spark 应 用 的 数据 处 理 过 程 即 是 多 个 RDD 的 转换 过 程 , Spark 对 数据 处 理 过 程 提 出 了 优 
化 方法 : 首先 把 数据 处 理 过 程 中 使 用 到 的 RDD 和 RDD 之 间 的 转换 过 程 构 成 有 向 无 环 
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图 DAG; 其 次 根据 RDD 之 间 的 转换 类 型 划分 阶段 Stage， 同 一 阶段 Stage 中 的 RDD 转 
换 操 作 在 不 同 的 节点 上 可 以 并 行 执行 ， 最 后 执行 划分 好 阶段 的 DAG 图 。 

有 向 无 环 图 的 阶段 划分 如 图 8-6 所 示 , 图 中 的 标注 A、B、C、D、E、F 和 G 是 RDD， 
小 方块 代表 分 别 在 不 同 节点 上 ， 并 标明 了 RDD 之 间 的 转换 关系 ， 如 RDD A 到 RDD B 
为 groupBy 操作 、RDD C 到 RDD D 为 map 操作 等 ， 这 些 RDD 根据 它们 之 间 的 转换 关 
系 构成 了 一 个 有 向 无 环 图 DAG。 虚 线 框 为 阶段 Stage， 图 中 分 3 个 阶段 : 阶段 Stage 1、 
阶段 Stage 2 和 阶段 Stage 3。 阶 段 的 划分 依据 为 RDD 的 转换 是 否 能 合并 与 并 行进 行 ， 
如 某 个 节点 上 从 RDD C 到 RDD D 的 转换 和 RDD D 到 RDD F 的 转换 可 以 合并 执行 ， 
不 需要 等 待 其 他 节点 的 转换 结果 ; 而 RDD A 到 RDD B 的 转换 需要 涉及 所 有 相关 节点 ， 
故 被 划分 到 两 个 阶段 。 最 后 依次 执行 各 阶段 算出 RDD Go 


图 8-6 有 向 无 环 图 的 转换 过 程 


8.4.1 YARN 运行 架构 工作 原理 


(1) Spark 在 0.6 版 本 之 后 ， 增 加 了 Yam 工作 模式 ， 如 图 8-7 所 示 介 绍 原 理 之 前 
先 说明 几 个 名 词 概念 。 

(D) Driver: 和 ClusterManager 通信 ， 进 行 资 源 申 请 、 任 务 分 配 并 监督 其 运行 状况 等 。 

(2) ClusterManager: 指 YARN. 

(8) DAGScheduler: 把 spark 作业 转换 成 Stage 的 DAG 图 。 

(à) TaskScheduler: 把 Task 分 配给 具体 的 Executor. 

© ResourceManager: 负责 整个 集群 的 资源 管理 和 分 配 。 

(8) ApplicationMaster: YARN 中 每 个 Application 对 应 一 个 AM 进程 ， 负 责 与 RM 
协商 获取 资源 ， 获 取 资 源 后 告诉 NodeManager 为 其 分 配 并 启动 Container。 

@ NodeManager: 每 个 节点 的 资源 和 任务 管理 器 ， 负 责 启 动 /停止 Container， 并 监 
视 资 源 使 用 情况 。 

Container: YARN 中 的 抽象 资源 。 

(2) spark on yarn 有 两 种 模式 ， 一 种 是 cluster 模式 ， 另 一 种 是 client 模式 。 

O 执行 命令 ./spark-shell --master yam， 默 认 运 行 的 是 client 模式 。 


SAD «s 
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(2) 执行 "./spark-shell --master yam-client" 或 者 "./spark-shell --master yarn --deploy- 


mode client"， 运 行 的 也 是 client。 


® 执行 "/spark-shell--master yam-cluster" 或 者 "./spark-shell--master yarn--deploy- 


mode cluster"， 运 行 的 是 cluster 模式 。 


3 


YARN Cluster 工作 原理 


Container 


Executor 


8-7 Yarn Cluster 模式 工作 原理 


(3) client 和 cluster 模式 的 主要 区 别 在 于 ， 前 者 的 driver 是 运行 在 客户 端 进程 中 ， 
后 者 的 driver 是 运行 在 NodeManager 的 ApplicationMaster 之 中 。 有 具体 工作 流程 如 图 8-8 


所 示 。 


YARN Client 工作 原理 YARN | 


Cluster | 
l 


SparkContext 3.@mam Container Container 


Application Master 177 ESO 


8-8 Yam Client 模式 工作 原理 


(D Spark Yarn Client 向 YARN 的 ResourceManager 申请 启动 Application Master. [E] 
时 在 SparkContent 初始 化 中 将 创建 DAGScheduler 和 TASKScheduler 等 ， 由 于 我 们 选择 的 
是 Yam-Client 模式 , 程序 会 选择 YamClientClusterScheduler 和 YarnClientSchedulerBackend. 
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@ ResourceManager 收 到 请 求 后 ， 在 集群 中 选择 一 个 NodeManager， 为 该 应 用 程序 
分 配 第 一 个 Container， 要 求 它 在 这 个 Container 中 启动 应 用 程序 的 ApplicationMaster， 
Ej YARN-Cluster 的 区 别 是 在 该 ApplicationMaster 中 不 运行 SparkContext, 只 与 SparkContext 
进行 联系 进行 资源 的 分 派 。 

(8) Client 中 的 SparkContext 初始 化 完毕 后 ， 与 ApplicationMaster 建立 通信 ， 向 
ResourceManager 注册 ， 根 据 任 务 信息 向 ResourceManager 申请 资源 (Container). 

@ ApplicationMaster 申请 到 资源 (也 就 是 Container) 后 ， 便 与 对 应 的 NodeManager 
通信 ， 要 求 它 在 获得 的 Container 中 启动 CoarseGrainedExecutorBackend , 
CoarseGrainedExecutorBackend 启动 后 会 向 Client 中 的 SparkContext 注册 并 申请 Task。 

© Client 中 的 SparkContext 分 配 Task 给 CoarseGrainedExecutorBackend 执行 ， 
CoarseGrainedExecutorBackend 运行 Task 并 向 Driver 汇报 运行 的 状态 和 进度 , 以 让 Client 
随时 掌握 各 个 任务 的 运行 状态 ， 从 而 可 以 在 任务 失败 时 重新 启动 任务 。 

@ 应 用 程序 运行 完成 后 , Client 的 SparkContext 向 ResourceManager 申请 注销 并 关 
Mac. 

O 任务 完成 ， 回 收 资源 。 

8.4.2 Spark Mlib 核心 技术 


1. Mlib 数据 类 型 介绍 

COD 本 地 变量 的 基 类 是 Vector: 支持 密集 向 量 Dense Vector 和 稀疏 向 量 Sparse 
Vector，scala 实现 如 下 : 

val dv: Vector = Vector.dense (5.0, 6.0, 7.0) 

val sv: Vector = Vector.sparse (3, Array (0, 2), Array (1.0, 3.0)) 

(2) 标点 类 型 LabeledPoint: 由 一 个 标签 和 本 地 向 量 组 成 ， 标 签 可 以 是 Int 型 或 者 
Double 型 。scala 实现 如 下 : 

val pos=LabledPoint(1.0, Vector.dense (1.0, 0.0, 3.0)) 

val pos-LabledPoint(0.0, Vector.sparse (3, Array (0,2), Array (1.0, 3.0))) 

(3) MBE: 如 LibSVM 格式 ，label index]: valuel index2: value2 index3: value3. 

(4) 本 地 矩阵 : 基 类 是 Matrix, Mlib 提供 了 DenseMatrix 实现 。 

MLlib 是 Spark 对 常用 的 机 器 学 习 算法 的 实现 库 ， 同 时 包括 相关 的 测试 和 数据 生成 
ato Spark 的 设计 初衷 就 是 为 了 支持 一 些 迭 代 的 Job， 这 正好 符合 很 多 机 器 学 习 算 法 的 
特点 。MLlib 目前 支持 4 种 常见 的 机 器 学 习 问 题 : 分 类 、 回 归 、 聚 类 和 协同 过 滤 。 分 类 
算法 属于 监督 式 学 习 , 使 用 类 标签 已 知 的 样本 建立 一 个 分 类 函数 或 分 类 模型 , 应 用 分 类 
模型 , 能 把 数据 库 中 的 类 标签 未 知 的 数据 进行 归 类 。 分 类 在 数据 挖掘 中 是 一 项 重要 的 任 
务 ， 目 前 在 商业 上 应 用 最 多 ， 常 见 的 典型 应 用 场景 有 流失 预测 、 精 确 营 销 、 客 户 获取 、 
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个 性 偏好 等 。MLlib 目前 支持 的 分 类 算法 有 逻辑 回归 、 支 持 向 量 机 、 朴 素 贝 叶 斯 和 决策 


树 。 


E] 


归 算 法 属于 监督 式 学 习 , 每 个 个 体 都 有 一 个 与 之 相关 联 的 实数 标签 ， 并 且 我 们 希 


望 在 给 出 用 于 表示 这 些 实体 的 数值 特征 后 ， 所 预测 出 的 标签 值 可 以 尽 可 能 接近 实际 值 。 
MLlib 目前 支持 的 回归 算法 有 线性 回归 、 怜 回归 、Lasso 和 决策 树 。 


2. 评价 数据 模型 需要 评价 指标 ， 如 灵敏 度 和 特异 度 等 ， 具 体 概念 说 明 如 下 : 

e TP: true (预测 是 正确 ), positive 预测 为 正 样本 ), 表示 预测 为 正 样本 预测 正确 。 

e FN: false (预测 是 错误 )，negative 〈 预测 为 负 样本 )， 表 示 预 测 为 负 样本 预测 
错误 。 

e TN: true (CHIA IEH), negative (预测 为 负 样 本 )， 表 示 预 测 为 负 样本 预测 
正确 。 

e FP: false〈( 预 测 是 错误 )，positive〔 预 测 为 正 样 本 )， 表 示 预 测 为 正 样本 预测 
错误 。 

e P (实际 为 正 样本 ) =TP+FN， 表 示 包 括 预测 为 正 样本 预测 正确 ， 预 测 为 负 样本 
预测 错误 。 

eN (实际 为 负 样本 ) =TN+FP， 表 示 包 括 预测 为 负 样本 预测 正确 ， 预 测 为 正 样本 
预测 错误 。 

e 正确 率 Caccuracy) =TP+TN/P+N， 表 示 正 负 样 本 而 言 ， 预 测 是 正确 的 概率 。 

e 错误 率 Cerror rate) =FN+FP/P+N， 表 示 正 负 样本 而 言 ， 预 测 是 错误 的 概率 。 

e REU HURE, HEX recall， 查 全 率 sensitive) =TP/P =TPR， 表 示 对 所 有 正 
样本 而 言 ， 预 测 是 正确 的 概率 。 

e 特异 度 〈 特 效 度 specificity) =TN/N， 表 示 对 所 有 负 样 本 而 言 ， 预 测 是 正确 的 

e 精度 〈 查 准 率 ， 准 确 率 precision) =TP/TP+FP， 表 示 预 测 为 正 样本 而 言 ， 预 测 是 
正确 的 概率 。 


8.4.3 Spring Maven 工程 构建 
构建 pom.xml SC, spark-mllib 2.11 就 是 机 器 学 习 类 库 包 ， 有 具体 如 下 ; 


<?xml version="1.0" encoding="UTF-8"?> 
<project xmlns="http://maven.apache.org/POM/4.0.0" 
xmlns:xsi="http: //www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http: //maven.apache.org/POM/4.0.0 http:// 
maven. apache.org/xsd/maven-4.0.0.xsd"> 
<modelVersion>4.0.0</modelVersion> 
<groupId>BSR</groupId> 
<artifactId>Bigdata</artifactId> 
<version>1.0-SNAPSHOT</version> 
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<properties> 
<scala.version>2.11.8</scala.version> 
<hadoop.version>2.7.4</hadoop.version> 
<spark.version>2.0.2</spark.version> 
</properties> 
<dependencies> 
<dependency> 
<groupId>org.scala-lang</groupId> 
<artifactId>scala-library</artifactId> 
<version>${scala.version}</version> 
</dependency> 
<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-core 2.11</artifactId> 
<version>${spark.version}</version> 
</dependency> 
<dependency> 
<groupId>org.apache.hadoop</groupId> 
<artifactId>hadoop-client</artifactId> 
<version>${hadoop.version}</version> 


</dependency> 

<!-- https://mvnrepository.com/artifact/org.apache.spark/ 
spark-mllib --> 

<dependency> 


<groupId>org.apache.spark</groupId> 
<artifactId>spark-mllib 2.11</artifactId> 
<version>${spark.version}</version> 

</dependency> 

<dependency> 
<groupId>mysql</groupId> 
<artifactId>mysql-connector-java</artifactId> 
<version>5.1.38</version> 

</dependency> 

<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-sql 2.11</artifactId> 
<version>2.0.2</version> 

</dependency> 

<dependency> 
<groupId>org.apache.spark</groupId> 
<artifactId>spark-hive 2.11</artifactId> 
<version>2.0.2</version> 

</dependency> 

<dependency> 
<groupId>org.apache.spark</groupId> 
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</transformers> 
</configuration> 
</execution> 
</executions> 
</plugin> 
</plugins> 
</build> 
</project> 


8.44 ”决策 树 预测 体检 费用 


COD 体检 数据 集 说 明 : 323 个 特征 值 ， 包 括 用 户 年 龄 ， 性 别 ， 住 址 ， 籍 贯 ， 既 往 病 
史 和 检查 结果 等 ， 目 标 特征 是 分 类 变量 19, 5 表示 体检 花费 5.0 ( 千 元 )， 需 要 转换 为 
LabledPoint 类 型 的 稀 朴 数据 格式 ， 具 体 如 下 : 


weeeee* output all features and label by String in the line beforeprocessing 
ISSO CE 
1,1,1,30,2201,0,1,20,210105,51,3,5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 
O O O OEO e O e O D O O E EE 
2,3.2,3.2,3.2,0.1.0,1,1,0,10,2680,1,1,80,0,1,2,2,5,0.1,2101,1,7,2101, 
,1,1,1,1,1,0,0,0,0,1, 300117, 300102, 300133, 300133, 13, 1, 300102, 900704, 
,0,58176, 8907.-53,1, 1,1, 1,1, 1,11, 1, 1, 1,0, 0, 1, 1,0, 0, 1, 0, 1, 0, 0; 


r 


rU, 


1 
0,0 
0,0 
0,0 
0,0 
0,0 
0,0 
0,0 


SEO Eo 


, 


SAO ey er ww 


70, 
******** Output all features and label by LabeledPoint in the line after 
¡Processing o exten een 

(5-0, (323, [0,1, 2,3, 4, 5,6, 7,8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22. 
23,24,25,26,271,28,29,30,31,32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 
45,46,47,48,49,50,51,52,53,54,55, 56,57,58,59, 60, 61, 62, 63, 64, 65, 66, 
67, 68, 69, 70, 71, 72, 73, 74, 15, 16, 11, 18, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 
89, 90,91, 92,93, 94, 95, 96, 97, 98, 99,100, 101, 102,103, 104,105,106, 107, 
108,109, 110,111,112, 113,114,115, 116, 117,118,119, 120, 121, 122, 123, 
124,125,126, 127,128, 129, 130,131, 132, 133,134,135, 136, 137, 138, 139, 
140,141,142, 143,144,145,146, 147,148,149, 150,151,152, 153, 154,155, 
156, 157,158,159, 160,161, 162,163, 164,165,166, 167,168,169,170,171, 
172,173,174, 175,176, 177,178,179, 180, 181, 182, 183, 184, 185, 186, 187, 
188,189,190,191,192,193,194,195,196,197, 198,199, 200, 201, 202, 203, 
204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 
220,221,222, 223,224,225, 226, 227, 228, 229, 230, 231, 232, 233, 234, 235, 
236,237, 238, 239, 240, 241, 242, 243,244, 245, 246, 247, 248, 249, 250,251, 
252,253,254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 
268,269,270, 271,272,273, 274, 275,276,277, 278,279, 280, 281, 282, 283, 
284,285, 286, 287,288, 289, 290, 291, 292, 293, 294, 295, 296, 297, 298, 299, 
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300,301,302,303,304,305,306,307,308,309,310,311,312,313,314,315, 
316,317,318,319,320,321,322],[1.0,1.0,1.0,30.0,2201.0,0.0,1.0,20. 

0,210105.0,51.0,3.0,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0. 
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0, 
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0. 


0,0.0,0.0,3.2,0.0,3.2,3.2,3.2,3.2,0.0,1.0,0.0,1.0,1.0,0.0,10.0,4680. 
OO 080000 0250 2050050 150 + 21010 oo 
3.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,1.0,300117.0,300102.0, 
300133.0,300133.0,13.0,1.0,300102.0,900704.0,0.0,0.0,0.0,0.0,58176. 


(De 0 a OEO ee a 0000 10, 
1.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0. 
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0, 
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0. 
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0, 
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0. 
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0, 
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0. 
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0, 
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0. 
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0, 
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0. 
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0])) 


(2) 更 多 体检 数据 集 可 以 在 本 书 指 


现 如 下 : 


import 
import 
import 
import 
import 
import 
/** 


计 
3 
7I 
= 


网 络 上 下 载 ， 决 策 树 预 测 体检 花费 的 代码 实 


org.apache.spark.mllib.linalg.Vectors 
org.apache.spark.mllib.regression.LabeledPoint 
org.apache.spark.mllib.tree.DecisionTree 
org.apache.spark.mllib.tree.configuration.Algo 
org.apache.spark.mllib.tree.impurity.Entropy 
org.apache.spark. {SparkConf, SparkContext} 


* Created by changyaobin 


=/ 
object 


DecisionTreeTest { 


def main (args:Array[String]) :Unit = { 

val conf = new SparkConf () .setAppName ("DesionTrain") .setMaster 
("Tocat r2]") 

val sc - new SparkContext (conf) 

11 加 载 数据 

val data = sc.textFile("f://physicalCheck.csv").map(lines => { 
val fields = lines.split(",") 
val lable = fields (fields.length - 1) .toDouble 
val features = fields.slice(1,fields.length - 1).map(x => x. 


toDouble) 


LabeledPoint (lable, Vectors.dense (features) ) 
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}) 

val labe = data.map( .label) 

// 了 解决 策 树 的 参数 

val model = DecisionTree.train (data,Algo.Classification,Entropy, 5,9) 

val predictionAndLabel = data.map { point => 
val score = model.predict (point.features) 

(score) 

} 

println (predictionAndLabel.collect () .toBuffer) 

val acc = labe.zip(predictionAndLabel) .filter(x => ( 
x. l.equals(x. 2) 

}).count()/ labe.count () .toDouble 

println (acc) 


} 
(3) 预测 结果 如 图 8-9 所 示 。 


T; BD JAServer [sre | DecisionTrecTest scola Y 


-+ o- te [o LogicRegession scala = isionTreeTestccale ^ | 8 ForestTestacala x | @ LogieRegmssTestscala * 9 Deciconscala x | 
+ [MachineLeamingl 


ED 


DecisionTreeTest 


D Bayer 
1b Collaborativeritor 

U @ Decisionacala 
108 DeckdonTreeTest 


ostontrain") ‚nerMaster ("local (2) ") 


Kos) mep(lines => ( 


© LogicRegressTest 
ITA 
E-O Rrscala 


ib 56D o 
© @ Male 
8 weDemo.scala 
[à MachineLearming il 
ih External Libraries 


1) ‚map (x => x.toDoublo) 


图 8-9 决策 树 的 数据 预测 展示 
84.5 逻辑 回归 预测 体检 费用 


(1) 更 多 体检 数据 集 可 以 在 本 书 指定 的 网 络 地 址 下 载 , 逻辑 回归 预测 体检 花费 的 代 
码 实现 如 下 : 


import org.apache.spark.mllib.classification. {LogisticRegressionWith LBFGS, 
LogisticRegressionWithSGD} 

import org.apache.spark.mllib.linalg.Vectors 

import org.apache.spark.mllib. regression. LabeledPoint 

import org.apache.spark. {SparkConf, SparkContext} 

I** 
* Created by changyaobin. 
Sl 

object LogicRegressTest ( 
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def main (args:Array[String]) :Unit = { 

val conf = new SparkConf () .setMaster ("local [2]") .setAppName 

("LogisticRegression") 
11 设置 环境 变量 

val sc = new SparkContext (conf) 

val data-sc.textFile("f://physicalCheck.csv") .map (lines=>{ 
val fields=lines.split (",") 
val lable=fields (fields.length-1) .toDouble 
val features=fields.slice (1, fields.length-1) .map (x=>x.toDouble) 
LabeledPoint (lable, Vectors.dense (features)) 

3) 

val lable=data.map( .label) 

val model = new LogisticRegressionWithLBFGS () 
.setNumClasses (9) 
.run (data) 

val predictionAndLabels =data.map { case LabeledPoint (label, features) => 
val prediction = model .predict (features) 
(prediction) 

} 

predictionAndLabels.foreach (x=> println(x)) 

val acc=lable.zip(predictionAndLabels) .filter (x=>{ 
x. l.equals(x. 2) 

}) -count () /lable.count () .toDouble 

printin ("LR 预测 患者 在 医院 花费 的 准确 率 是 ") 


println (acc) 


} 
(2) 预测 结果 如 图 8-10 所 示 。 


Ea BD JAserver L ere SM LosicRegrereTertecala 


Logickegresstost =| b % # M 


E Project ~ + ©- qr [ 6 LogiRegessionscala x | 18 DediyonfreeTestscala X | 8) ForestTentscale X | © LogiRegressTestscaa x [8 Dechionscale X | @ RFacala x | 18 PCAscala X | 
7 S BD JASerer [Machineleaming] 5 " - 
Lo idea 
$- D data sen 
Bout 


Ò are 
@ Bayer 
© ColaborativeFiter 

144 Decisionseala 

© Desisontreelest 
D ForestTest 
OP Tee Create angya 
D means 7 
D cmeansl 
© LinearRegression 


object Logienegrasstese || 


5 @ LogicRegession scala def main(args: Arraylöszingl]: Unit = [ 
© LagizteRegrecsion z : rincón BETALTE 
| Logictiogrecereet val conf = now SparkConf() .ootMastor(“l00=1[2]") .a9tApplane ("LogisticRogression") i aa 
D PCA val sc = new Spi 


sco val data=sc. csv) map (lines=>{ 


E-O SVMecala val fields: 
E @ weDemoscals 


图 8-10 ”逻辑 回归 的 数据 预测 展示 
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8.4.6 BEML ARR A A 


CD 更 多 体检 数据 集 可 以 在 本 书 指定 的 网 络 地 址 下 载 , 随机 森林 预测 体检 花费 的 代 
码 实现 如 下 : 


import org.apache.spark.mllib.linalg.Vectors 
import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.tree.RandomForest 
import org.apache.spark.mllib.tree.configuration.Algo 
import org.apache.spark.mllib.tree.impurity.Entropy 
import org.apache.spark. {SparkConf, SparkContext} 
/** 
* Created by changyaobin. 
S7 
object ForestTest ( 
def main(args:Array[String]):Unit - ( 
val conf-new SparkConf () . setAppName ("DesionTrain") .setMaster ("local 
{217} 
val sc=new SparkContext (conf) 
// 加 载 数据 
val data=sc.textFile("f://physicalCheck.csv").map (lines=>{ 
val fields=lines.split (",") 
val lable=fields (fields.length-1) .toDouble 
val features=fields.slice (1, fields.length-1) .map (x=>x.toDouble) 
LabeledPoint (lable, Vectors.dense (features)) 
}) 
val labe=data.map( .label) 
11 配置 决策 树 的 参数 
val model= RandomForest.trainClassifier (data, 9,Map[Int, Int] (),20, 
"auto", "entropy",30,300) 
val predictionAndLabel = data.map { point => 
val score = model.predict (point.features) 
(score) 
b 
predictionAndLabel.foreach(x-» println(x)) 
// 测试 准确 率 
val acc=labe.zip(predictionAndLabel) .filter (x=>{ 
X. l.equals(x. 2) 
}) -count () /labe.count () .toDouble 
println ("Forest 预测 患者 在 医院 花费 的 准确 率 是 ") 


println (acc) 
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2) 预测 结果 如 图 8-11 所 示 。 


T3BD JAServer ) 口 se È ForestTestscala 43 (E foerstlest=) > & om 


= Eier 
|F Ea B0.IAServer [MachineLearming] = 


(8 Dediionscala = | O RFscala x | 8 PCAccala = | 


© Unearfegression 
(B LogicRegession scala 


object ForestTest [ 


gi 


@ LogisticRegression pá AA 
(8 LogicRegressTest in(ergs: ArreyiStringl) 


val conf-now 


onf () -ootappilano ("Dosiontrain"].sotMastor ("Loca[2]"] 


图 8-11 随机 森林 的 数据 预测 展示 
8.4.7 支持 向 量 机 预测 疾病 概率 


(OD 以 下 数据 是 代表 患者 化 验 检查 的 部 分 结构 ， 数 据 集 的 数据 格式 是 lable 是 患 病 
的 标签 ， 后 面 是 特征 值 ， 表 示 年 龄 和 化 验 结果 等 。20 条 数据 集 如 下 : 


MATERIAS AAA AO 
SS RAI O Mza lO dl 
TGL 2:2 FIGE AF2 SEI 
1:56 229 SIGE) ler) Bs 
L255 253 3:860 4:3 524 
METAS AAA te 

31:39 2:1 3:76 4:1 Bal 
12427251, 3224004437522 
1:40 2:13:74 4:1. 521 

p KT: A ESOS E AA 
aT sh ats} Je BRA AO 
EAN AA 3,1941 sc ES 
3. 
VS JIA AZ od 
SORIA 31.6 7423551 
ASS OZ IZ 
Tla 2:3 ASUS DONA SOS) 
1:32 221 3-114 4:2 513 
D2 A 2 
1570 2:3. 3:177:2 4:4 5:3 


(2) 针对 以 上 数据 集 构 建 数 据 模型 ， 代 码 实现 如 下 : 


import org.apache.spark.mllib.classification.SVMWithSGD 


PLOOPorooroooooorrooo 
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import org.apache.spark.mllib.evaluation.MulticlassMetrics 
import org.apache.spark.mllib.linalg.Vectors 
import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.util.MLUtils 
import org.apache.spark. {SparkContext, SparkConf} 
object DiseasesPredict { 

def main (args: Array[String]) { 


val conf = new SparkConf () / /创建 环境 变量 
.setMaster ("local") 1/ 设置 本 地 化 处 理 
.setAppName ("SVMTest") // 设 定名 称 
val sc = new SparkContext (conf) / /创建 环境 变量 实例 
val data = MLUtils.loadLibSVMFile (sc,"c: //svm.txt") // 获 取 数 据 集 
val splits = data.randomSplit (Array (0.7,0.3) ,seed = 111) // 对 数据 集 切 分 
val parsedData = splits (0) // 分 割 训练 数据 
val parseTtest = splits (1) // 分 割 测试 数据 
val model = SVMWithSGD.train (parsedData, 50) /训练 模型 
val predictionAndLabels = parseTtest.map { // 计 算 测 试 值 
case LabeledPoint (label, features) => // 计 算 测 试 值 
val prediction = model.predict (features) // 计 算 测 试 值 
(prediction, label) // 存 储 测试 和 预测 值 
} 
val metrics = new MulticlassMetrics (predictionAndLabels) // 创 建 验证 类 
val precision = metrics.precision // 计 算 验证 值 
println ("Precision = " + precision) // 打 印 验证 值 


val patient = Vectors.dense (Array (70,3,180.0,4,3)) // 计 算 患 者 可 能 性 
if (patient == 1) println ("患者 的 患 某 种 疾病 概率 很 大 。") // 做 出 判断 
else println (" 未 见 异常 。") // 做 出 判断 

} 

} 


G) 对 一 个 新 患者 070, 3, 180.0, 4, 30 的 预测 结果 为 未 见 异常 ， 如 图 8-12 所 示 。 


EZ BD Jaserver sre) W SUM cca 要 Colaborativeriter z P k #> m Mi] 


wal splits = data.randoas, 
val paraedbata 


Y val parsertest 


(8 LincarRearession 
© Logickegectionceala 
© LogicRegraseTest 

@ PCA 
© Rao 
@ sco 
5-0 SUM eral 


eier la 


812 支持 向 量 机 的 疾病 预测 结果 展示 


351 s 


E 
大 数据 架构 之 道 与 项 目 实 成 了 


8.4.8 协同 过 滤 推荐 药品 


(1) 以 下 是 用 户 的 数据 信息 ， 数 据 集 的 数据 格式 是 : lable 表示 用 户 类 型 (1-4), 后 
面 是 特征 值 ， 表 示 药 品类 型 (10~20〉 和 疗效 (0-5). 20 条 数据 集 如 下 : 
TT OT I ED DET aie X14 Dee P0 TIG ST. 


2 SRA 35 ed 2 NG) bes) al Shes) ahi 17 3 LT9 ora ally abs 
4213227421252, 4 1A LA SA A a2 4 24 a 


(2) 对 如 上 数据 集 进行 转换 , 将 数据 集 转化 为 专用 Rating, 调用 recommendProducts 
函数 进行 推荐 ， 代 码 实现 如 下 : 


import org.apache.spark. 
import org.apache.spark.mllib.recommendation.(ALS,Rating) 
object CF { 
def main(args:Array[String]) { 
val conf = new SparkConf () .setMaster ("local") .setAppName ("CF ") 


// 设 置 环境 变量 
val sc = new SparkContext (conf) /7 实例 化 环境 
val data = sc.textFile("c://cf.txt") // 设 置 数据 集 
val ratings = data.map( .split(' ')match ( // 处 理 数据 
case Array (user, item, rate) => // 将 数据 集 转化 
Rating (user.toInt,item.toInt, rate.toDouble) 
// 将 数据 集 转化 为 专用 Rating 
}) 
val rank = 2 // 设 置 隐藏 因子 
val numIterations = 2 IBERIA 
val model = ALS.train (ratings, rank, numIterations, 0.01) // 进 行 模型 训练 
var rs = model.recommendProducts (2,2) // 为 用 户 2 推荐 一 个 药品 
rs.foreach (println) // 打 印 结果 


} 
(3) 为 用 户 2 推荐 一 个 药品 ， 结 果 如 图 8-13 所 示 。 


Mi. Collaboratmeriter= b de HS m | Ei 


» E Kmeansi scala x | @ Kmeans scala x | © PCAscala x | @ SUM scala x 


8-13 ”协同 过 滤 推 荐 药品 的 结果 展示 
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8.5 项 目 小 结 


本 章 针 对 物 联 网 体检 大 数据 进行 了 分 类 分 析 ， 实 现 了 体检 费用 预测 、 疾 病 预 测 、 药 
品 推荐 等 应 用 ， 采 用 决策 树 、 逻 辑 回归 、SVM 等 机 器 学 习 算 法 ， 这 些 算法 使 用 的 都 是 
通用 的 数据 训练 和 预测 方法 ， 我 们 工程 师 只 有 在 真正 理解 算法 工作 原理 和 应 用 场景 之 
后 , 才能 解决 实际 分 析 问 题 , 尤其 是 提升 预测 准确 率 方面 。 其 中 数据 集 的 生成 是 主要 工 
作 ， 工 作 占 比 大 概 在 60% 以 上 。LabeledPoint 和 LibSVM 格式 是 主流 的 Spark Mlib 的 数 
据 加 载 常用 格式 。 下 面 总 结 各 个 知识 点 : 

1. 理论 知识 点 

(1) 逻辑 回归 (Logistic Regression) 是 回归 分 析 的 一 种 ， 主 要 用 来 做 分 类 ， 适 用 于 
二 分 类 问题 ， 可 以 推广 到 多 分 类 问题 。 主 要 工作 为 了 求 出 回归 系数 ， 并 建立 方程 ， 为 后 
续 新 向 量 预测 提供 函数 。 

(2) 支持 向 量 机 是 扩展 的 线性 分 类 器 , 线性 分 类 器 是 用 一 个 超 平面 将 不 同类 别 的 样 
本 分 开 。 其 主要 思想 是 将 低 维 空间 的 样本 通过 非 线 性 变换 映射 到 高 维 空间 ,从 而 将 低 维 
空间 的 线性 不 可 分 问题 转化 为 高 维 空间 的 线性 可 分 问题 。 计 算 函 数 系数 "Al b, BEAT 
以 确定 这 个 超 平 面 的 方程 


IS) = Sica KG, S) +8" 
i=l 


3) 决策 树 的 建立 是 基于 样本 的 递归 的 学 习 过 程 , 每 个 样本 都 是 具有 确定 的 属性 的 
数据 ， 决 策 树 就 是 基于 样本 的 各 属性 建立 起 来 的 。 决 策 树 分 为 根 节点 (信息 增益 最 大 的 
节点 )、 内 部 节点 和 叶 节 点 。 从 根 节点 出 发 ， 自 项 向 下 ， 构 建 分 支 和 内 部 节点 ， 在 内 部 
节点 进行 属性 值 的 比较 , 并 根据 属性 的 不 同 取 值 确定 从 该 节点 向 下 的 分 支 , 最 终 在 叶 节 
点 给 出 类 别 。 

(4) 聚 类 算法 通常 按照 中 心 点 或 者 分 层 的 方式 对 输入 数据 进行 归并 。 聚 类 算法 都 试 
图 找到 数据 的 内 在 结构 ， 以 便 按 照 最 大 的 共同 点 将 数据 进行 归 类 。 

C5) 关联 规则 学 习 通过 寻找 最 能 够 解释 数据 变量 之 间 关 系 的 规则 , 来 找 出 大 量 多 元 
数据 集中 有 用 的 关联 规则 。 常 见 算法 包括 Apriori 算法 和 FP-growth 算法 。 

(6) 协同 过 滤 就 是 给 用 户 推荐 相似 的 物品 或 者 人 , 协同 过 滤 算 法 又 分 为 基于 用 户 的 
协同 过 滤 算法 和 基于 物品 的 协同 过 滤 算 法 。 

2. 实战 知识 点 

(1) 标点 类 型 LabeledPoint: 由 一 个 标签 和 本 地 向 量 组 成 ， 标 签 可 以 是 Int 型 或 者 
Double 型 。 
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(2) MBE: 如 LibSVM 格式 label index1: valuel index2: value2 index3: value3 。 
(3) 把 数据 集 转 成 LabeledPoint 格式 的 通用 方法 ，Scala 实现 如 下 : 


111 .加载 数据 
val data = 
val fields = lines.split(",") 
val lable = fields (fields.length - 1) .toDouble 
fields.slice(1,fields.length - 1) .map(x => x.toDouble) 


sc.textFile("f://physicalCheck.csv").map(lines => { 


val features = 


112 .转换 数据 


LabeledPoint (lable, Vectors.dense (features) ) 
}) 
(4) 不 同 分 类 算法 的 建 模 函数 不 同 , 但 是 预测 方法 都 一 样 ， 如 val prediction = model. 


predict (features). 
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j . 
大 数据 架构 之 道 与 项 目 实 成 了 


架构 之 道 分 享 之 九 : 孙子 兵法 的 《 始 计 篇 》 论 述 了 庙 算 ， 即 出 兵 前 在 庙堂 上 比较 
敌我 的 各 种 条 件 , 估算 战事 胜 负 的 可 能 性 ， 并 制订 作战 计划 。 大 数据 自 定义 迁移 要 考 
虑 和 选择 服务 对 象 及 数据 格式 之 后 ,针对 从 不 同 数据 库 迁 移 到 集群 环境 的 不 同 存储 位 
置 ， 为 后 续 数 据 分 析 和 数据 处 理 莫 定 坚实 基础 。 


k 掌握 Sqoop 引擎 迁移 数据 到 HDFS、HBase、Hive 中 的 实战 技巧 
* 掌握 MapReduce 框架 的 数据 处 理 方法 

* 掌握 HBase 的 数据 库 设计 和 通过 模板 类 实现 数据 管理 

* 掌握 数据 迁移 微 架 构 服 务 构 建 方法 


9.1 核心 需求 分 析 和 优秀 解决 方案 


大 数据 自 定义 迁移 引擎 是 把 物 联网 数据 资源 池 的 有 价值 的 数据 抽取 到 集群 中 , 可 以 
方便 后 续 智能 分 析 和 构建 数据 模型 使 用 , 本 章 讨 论 的 物 联网 数据 资源 池 中 有 价值 的 数据 
包括 用 户 信息 、 智 能 终端 运动 和 体检 业务 数据 等 ， 随 着 物 联网 设备 增多 和 体检 数据 不 断 
积累 ， 需 要 按照 日 期 把 历史 数据 迁移 到 HBase 或 者 Hive 数据 仓库 中 。 数 据 迁 移 要 考虑 
几 个 核心 需求 : 一 是 建立 统一 和 标准 化 的 迁移 工具 抽取 数据 到 HBase, 并 考虑 数据 清洗 ; 
二 是 考虑 抽取 和 迁移 性 能 ， 使 用 主流 的 Sqoop 引擎 实现 批量 处 理 迁 移 ， 三 是 验证 迁移 
后 的 数据 是 否 具备 完整 性 和 一 致 性 ; 四 是 考虑 迁移 工具 的 可 扩展 性 , 采用 灵活 配置 实现 
模块 化 处 理 。 


92 ”服务 引擎 的 技术 架构 设计 


大 数据 自 定义 迁移 引擎 包括 5 个 核心 模块 ， 如 图 9-1 所 示 , 每 一 个 模块 设计 都 要 考 
虑 模块 化 和 工具 化 两 个 关键 因素 ， 具 体 说 明 如 下 。 

(1) 核心 模块 一 :基于 Sqoop 引擎 ， 把 一 个 关系 型 数据 库 (如 MySQL, Oracle, 
SQLServer 等 ) 中 的 用 户 和 业务 数据 导入 Hadoop 的 HDFS 中 。 

(2) 核心 模块 二 : 设计 HBase 的 表 Rowkey 和 列 徐 ， 并 进行 数据 清洗 ， 然 后 把 HDFS 
的 用 户 和 业务 数据 迁移 到 HBase 库 。 

G) 核心 模块 三 : 设计 和 实现 HBaseTemplete 模板 类 ， 进 行 Dao 层 接口 定义 和 实现 。 

(4) 核心 模块 四 : 按照 时 间 和 用 户 等 条 件 查 询 在 HBase 中 的 迁移 数据 ， 验 证 数据 
统一 性 和 数据 完整 性 。 
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(5) 核心 模块 五 : 考虑 另外 的 迁移 方式 实现 离线 统计 ， 即 把 历史 数据 迁移 到 Hive. 


大 数据 自 定义 数据 迁移 服务 引擎 
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图 9-1 大 数据 自 定义 数据 迁移 服务 模块 化 设计 


9.3 ”核心 技术 讲解 及 模块 化 实现 


9.3.1 Hadoop 生态 的 核心 组 件 


Hadoop 是 Apache 的 一 个 开源 项 目 , 是 一 个 高 可 靠 、 高 可 扩展 和 高 性 能 的 分 布 式 并 
行 计算 框架 和 技术 生态 ， 主 要 由 分 布 式 文件 存储 系统 HDFS 和 分 布 式 并 行 计算 框架 
MapReduce 组 成 。 本 书 项 目的 运行 环境 是 Hadoop V2.7.3， 构 建 Hadoop V2.7.3 集群 环 
境 文档 和 项 目 数据 可 以 在 本 书 指定 位 置 下 载 。Hadoop 主要 解决 的 是 分 布 式 环境 下 的 数 
据 存储 、 并 行 计算 和 资源 协同 管理 问题 , 核心 价值 是 能 高 效 组 织 一 大 批 廉价 机 器 构建 分 
布 式 环境 来 协同 存储 和 处 理 海量 数据 。 

(D HDFS 是 分 布 式 文件 系统 ， 有 具备 易 扩展 、 廉 价 、 高 吞吐 量 、 高 可 靠 性 的 特性 ， 
一 个 文件 被 分 片 为 多 个 文件 进行 分 布 式 存储 ， 一 个 文件 默认 为 128MB. HDFS 系统 由 
主 节点 NameNode 和 多 个 从 节点 DataNode 组 成 。 主 节点 NameNode 的 职责 是 管理 文件 
所 在 目录 及 对 应 的 block 位 置 , DataNode 负责 实际 数据 的 存储 , 其 理论 基础 是 数据 复制 
和 数据 分 片 。 

(2) MapReduce 是 一 个 分 布 式 并 行 计算 框架 ， 实 现 了 在 集群 环境 下 的 并 行 任务 分 
解 处 理 的 Map 作业 和 结果 汇总 的 Reduce 作业 , 采用 了 “分 而 治之 ”的 作战 思想 .MapReduce 
框架 解决 了 并 行 数据 处 理 下 的 分 布 式 存储 、 任 务 调度 、 负 载 均衡 、 容 错 机 制 、 容 错 处 理 
等 核心 技术 问题 。 

(3) YARN 是 新 的 多 级 调度 资源 管理 系统 ， 它 是 MapReduce 的 升级 版 本 ， 核 心思 
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ETE ApplicationMaster 应 e ieh ena, icol 负责 整个 集群 
的 资源 管理 和 调度 ，ApplicationMaster 负责 应 用 程序 相关 事务 ， 如 任务 调度 、 任 务 监 控 
和 容错 等 。 

(4) HBase 是 一 个 基于 HDFS 进行 NoSQL 存储 模型 的 列 式 KV 数据 库 ， 有 具备 高 可 
伸缩 、 高 可 靠 性 、 高 性 能 、 分 布 式 等 特点 。 它 通过 高 效 的 Rowkey 行 键 实现 了 对 海量 数 
据 的 实时 读 写 访问 , 目前 属于 实时 处 理 中 非常 主流 的 数据 库 之 一 , 可 以 采用 MapReduce 
来 存储 和 处 理 ， 让 存储 实现 真正 意义 上 的 并 行 处 理 。 

(5) Hive 是 FaceBook 公司 开源 项 目 ， 设 计 初衷 是 为 了 处 理 海 量 数据 的 离线 统计 问 
题 。Hive 相当 于 SQL 任务 转化 为 Mapdeduce 并 行 任务 ， 可 以 大 幅度 减少 Mapdeduce 
的 程序 开发 ， 通 过 SQL 来 实现 数据 处 理 ， 如 过 滤 、 清 洗 、 编 码 、 整 合 等 任务 。 它 属于 
SQL 的 并 行 处 理 引 擎 ， 适 合 离线 数据 分 析 。 

(6) Flume 是 CLoudera 开源 的 日 志 收 集 系统 ， 具 备 分 布 式 、 高 可 靠 性 、 高 容错 性 、 
高 可 扩展 的 特性 。 对 实时 数据 实现 了 从 接收 、 传 输 、 处 理 、 写 入 过 程 的 数据 流 处 理 ， 可 
以 接收 多 源 异 构 数据 源 ， 对 数据 流 实现 数据 整合 ， 如 过 滤 、 清 洗 和 编码 等 。 

(7) HBase 集群 采用 Master/Slave 的 一 主 多 从 架构 设计 , 一 个 主 节点 服务 HMaster, 
多 个 从 节点 服务 HRegionServer，ZooKeeper 通过 HMaster 对 集群 进行 调度 ， 是 集群 环 
境 的 协调 器 。 

9.3.2 HBase 工作 原理 


HBase 集群 是 由 HMaster 和 HRegionServer 等 服务 组 成 的 。HMaster 是 HBase 集群 
的 管理 者 ， 负 责 管理 多 个 HRegionServer， 以 及 对 其 上 的 表 和 区 域 Region 的 管理 、 对 用 
户 数据 请 求 的 响应 。 集群 工作 主要 是 客户 端 和 和 集群 交互 进行 数据 文件 的 读 写 , 由 客户 端 
直接 和 HRegionServer 通信 ， 当 出 现 故障 后 HMaster 负责 集群 的 故障 切换 、HRegion 拆 
分 、 管 理 操作 接口 ， 因 此 HMaster 出 现 问题 后 需要 尽快 恢复 。HBase 集群 可 以 实现 高 可 
用 ， 至 少 两 个 HMaster 节点 ， 最 多 10 个 HMaster 节点 ， 可 以 避免 HMaster 发 生 单 点 故 
障 。 通 过 ZooKeeper 的 Master Election 选举 机 制 来 保证 任何 时 刻 集群 内 只 有 一 个 
HMaster 在 运行 ， 如 图 7-2 所 示 。 

HMaster 的 具体 任务 如 下 : 

(1) 负责 将 分 区 Region 分 配给 HRegionServer。 

(2) 负责 HRegionServer 的 负载 均衡 。 

3) 负责 监控 集群 的 从 节点 状态 ， 发 现 失效 的 HRegionServer 并 重新 分 配 其 上 的 
Regiono 

(4) 负责 维护 表 和 Region 的 元 数据 。 
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(5) 负责 管理 用 户 对 表 的 增 、 删 、 改 、 查 操作 。 
(6) 处 理 Schema 更 新 请 求 ，GFS 上 的 垃圾 文件 回收 。 


HRegionServer 
从 节点 
HRegion BE 


9-2 HBase 的 工作 原理 


1. HRegion 和 HRegionServer 原理 介绍 

在 存储 表 数 据 时 ， 有 唯一 行 键 rowkey 将 表 分 成 很 多 块 进行 存储 ， 每 一 块 称 为 一 个 
HRegion。 每 个 HRegion 由 一 个 或 多 个 Store 组 成 ， 每 个 Store 保存 表 中 一 个 列 族 的 数据 ， 
每 个 Store 由 一 个 MemStore 和 若干 个 StoreFile 组 成 , MemStore 保存 在 内 存 中 , 默认 配 
置 是 128MB，StoreFile 的 底层 实现 则 是 以 HFile 的 形式 存储 在 HDFS 上 。 

(1) HRegionServer 对 HRegion 的 管理 : 负责 管理 本 服务 器 上 的 HRegion， 处 理 对 
HRegion 的 VO 请 求 , 一 台 服 务 器 上 一 般 只 运行 一 个 HRegionServer, 每 个 HRegionServer 
管理 多 个 HRegion。 每 台 HRegionServer 上 有 一 个 HLog 文件 ， 记 录 该 HRegionServer 
上 所 有 HRegion 的 数据 更 新 备份 。 

(2) Table 的 HRegion 存储 机 制 : 每 个 table 先 只 有 一 个 HRegion, HRegion 是 HBase 
表 数 据 存 储 分 配 的 最 小 单位 ,一 张 table 的 所 有 HRegion 会 分 布 在 不 同 的 HRegionServer 
E, 但 一 个 HRegion 内 的 数据 只 会 存储 在 一 个 HRegionServer 上 。 当 客户 端 进行 数据 更 
新 操作 时 ， 先 连接 有 关 的 HRegionServer， 由 其 向 HRegion 提交 变更 ， 提 交 的 数据 会 首 
先 写 入 HLog 和 MemStore, 其 中 的 数据 累计 到 设 定 的 闷 值 时 , HRegionServer 会 启动 一 个 
单独 的 线程 ， 将 MemStore 中 的 内 容 保存 到 磁盘 上 ， 生 成 一 个 新 的 StoreFile. 4 StoreFile 
文件 的 数量 增长 到 设 定 值 后 ， 就 会 将 多 个 StoreFile 合并 成 一 个 StoreFile， 合 并 时 会 进 
行 版 本 合并 和 数据 删除 。 说 明 一 下 ，HBase 平时 一 直 在 增加 数据 ， 所 有 的 更 新 和 删除 操 
作 都 是 在 后 续 的 合并 过 程 中 进行 的 。 当 HRegion 中 单个 StoreFile 大 小 超过 设 定 的 阔 值 
时 ，HRegionServer 会 将 该 HRegion 拆 分 为 两 个 新 的 HRegion， 并 且 报 告 给 主 服务 器 ， 
HMaster 来 分 配 由 哪些 HRegionServer 存放 新 产生 的 两 个 HRgion, 最 后 旧 的 HRegion 
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不 再 需要 时 会 被 删除 。 反 过 来 ， 当 两 个 HRegion 足够 小 时 ，HBase 也 会 将 它们 合并 。 

(3) Client 端 有 访问 HBase 的 接口 ， 并 通过 缓存 来 加 快 对 HBase 的 访问 。 它 使 
用 HBase 的 RPC 机 制 与 HMaster 和 HRegionServer 进行 通信 : 对 于 管理 类 操作 ，Client 
与 HMaster 进行 通信 ; 对 于 数据 读 写 类 操作 ，Client 5 HRegionServer 进行 通信 。 

2. ZooKeeper 原理 介绍 

ZooKeeper 是 一 个 开放 源码 的 分 布 式 集群 协调 器 , 主要 用 于 解决 分 布 式 应 用 中 的 统 
一 命名 服务 、 状 态 同 步 服 务 、 集 群 管理 、 配 置 项 管理 等 问题 。HBase 安装 包 中 含有 内 置 
ZooKeeper， 也 可 以 使 用 独立 安装 的 ZooKeeper， 主 要 有 如 下 作用 。 

(1) 解决 HMaster 的 单 点 故障 问题 : HBase 中 可 以 启动 多 达 10 个 HMaster， 通 过 
ZooKeeper 的 Master Election 机 制 保证 任何 时 刻 只 有 一 个 HMaster 在 运行 。 

(2) 解决 实时 监控 HRegionServer 在 线 问题 : 监控 HRegionServer 的 上 、 下 线 信 息 
并 及 时 通知 HMaster， 若 有 HRegionServer 崩溃 可 以 通过 ZooKeeper 来 进行 分 配 协调 。 

(3) 解决 快速 Region 寻 址 问题 : ZooKeeper 中 存储 了 -ROOT 表 的 地 址 、HMaster 
的 地 址 、HRegionServer 地 址 、HBase 的 Schema 和 表 的 元 数据 ， 当 Client 连接 到 HBase 
时 ， 需 要 首先 访问 ZooKeeper 以 获取 这 些 核心 数据 。 

3. 元 数据 的 原理 介绍 

用 户 表 被 按 行 键 分 隔 成 不 同 的 HRegion 来 保存 ， 用 户 表 的 HRegion 元 数据 被 存储 
在 .META 表 中 ,该 表 在 HBase 中 也 以 HRegion 的 形式 来 进行 存储 。 随 着 .META 表 中 数 
据 增多 后 ， 它 也 会 被 拆 分 成 多 个 HRegion 来 保存 ，.META 表 中 各 个 HRegion ID 及 其 映 
射 信息 组 成 了 HBase 的 -ROOT 表 ， 由 ZooKeeper 来 记录 -ROOT 表 的 位 置信 息 。-ROOT X 
永远 不 会 被 分 割 且 只 有 一 个 HRegion， 这 样 可 以 保证 经 过 3 次 跳 转 就 可 以 定位 到 任意 一 个 
HRegion: 客户 端 访 问 用 户 数据 时 ， 首 先 访问 ZooKeeper 获得 -ROOT 表 的 位 置 ， 然 后 访问 
-ROOT 表 获 得 META 表 的 位 置 ， 最 后 根据 .META 表 中 的 信息 确定 用 户 数据 存放 的 位 置 。 

9.43 Sqoop 工作 原理 

Sqoop 是 负责 把 Hadoop 和 关系 型 数据 库 中 的 数据 相互 转移 的 工具 ， 可 以 将 一 个 关 
系 型 数据 库 中 的 数据 导入 Hadoop 的 HDFS 中 , 也 可 以 将 HDFS 的 数据 导入 关系 型 数据 
库 中 。 对 于 某 些 NoSQL 数据 库 ， 它 也 提供 了 连接 器 。Sqoop 使 用 元 数据 模型 来 判断 数 
据 类 型 ， 并 在 数据 从 数据 源 转移 到 Hadoop 时 确保 类 型 安全 的 数据 处 理 。Sqoop 专 为 大 
数据 批量 数据 迁移 设计 ， 能 够 分 割 数 据 集 并 创建 Hadoop 任务 来 处 理 每 个 区 块 。 

9.3.4 MapReduce 工作 原理 


MapReduce 是 一 种 分 布 式 计算 框架 ， 由 Google 公司 提出 ， 主 要 用 于 搜索 领域 ， 以 
解决 海量 数据 的 计算 问题 。MapReduce 由 两 个 阶段 组 成 : Map 阶段 和 Reduce 阶段 ， 用 


* 360 * 


第 9 章 大 数据 自 定义 迁移 微服 务 引擎 


户 只 需 实现 map 和 reduce 两 个 函数 就 可 以 实现 分 布 式 计 算 。 有 两 个 工作 线程 ， 分 别 是 
JobTracker 和 TaskTracker。JobTracker 进程 负责 资源 管理 和 任务 调度 ，TaskTracker 进程 
服务 任务 处 理 ， 它 们 在 集群 中 协同 工作 。 有 具体 工作 原理 如 下 : 

(OD 建立 通信 。 客 户 端 提交 一 个 作业 ，JobClient 与 JobTracker 服务 进行 通信 ， 
JobTracker 返回 一 个 JobID. 

(2) 复制 作业 资源 文件 。JobClient 复制 作业 资源 文件 到 集群 的 HDFS， 包 括 
MapReduce 程序 打包 的 JAR 文件 、 配 置 文件 和 客户 端的 输入 划分 信息 。 这 些 文 件 都 存 
WE JobTracker 进程 为 该 作业 创建 的 文件 夹 中 ， 文 件 夹 名 为 该 作业 的 Job ID. 

(3) 提交 作业 任务 。 开 始 提交 任务 ， 任 务 的 描述 信息 包括 jobid、jar 存放 的 位 置 、 
配置 信息 等 。 

(4) 初始 化 任务 。 创 建 作业 对 象 ，JobTracker 进程 接收 到 作业 后 ， 将 其 放 在 一 个 作 
业 队 列 中 ， 等 待 作业 调度 器 对 其 进行 调度 。 

(5) 分 配 任务 。 对 HDFS 上 的 资源 文件 进行 分 片 , 每 一 个 分 片 对 应 一 个 MapperTask, 
当 作 业 调 度 器 根据 自己 的 调度 算法 调度 到 该 作业 时 , 会 根据 输入 划分 信息 为 每 个 划分 创 
建 一 个 map 任务 ， 并 将 map 任务 分 配给 TaskTracker 执行 。 

(6) 建立 心跳 机 制 。TaskTracker 进程 会 向 JobTracker 进程 返回 一 个 心跳 信息 〈 任 
务 的 描述 信息 ), 根据 心跳 信息 ， 分 配 任务 每 隔 一 段 时 间 会 给 JobTracker 发 送 一 个 心跳 ， 
汇报 当前 map 任务 完成 的 进度 等 信息 。 当 JobTracker 收 到 作业 的 最 后 一 个 任务 完成 信 
息 时 ， 便 把 该 作业 设置 为 “成 功 ” 当 JobClient 查询 状态 时 ， 它 将 得 知 任务 已 完成 ， 便 
显示 一 条 消息 给 用 户 。 

(7) 任务 分 配 。TaskTracker 进程 从 HDFS 上 获取 作业 资源 文件 , 对 于 map 和 reduce 
任务 ，TaskTracker 根据 主机 核 的 数量 和 内 存 的 大 小 有 固定 数量 的 map 槽 和 reduce Hi. 
map 任务 分 配 有 一 个 就 近 原 则 ， 将 map 任务 分 配给 含有 该 map 处 理 的 数据 块 的 
TaskTracker 上 ， 同 时 将 程序 JAR 包 复 制 到 该 TaskTracker 上 来 运行 ， 在 分 配 reduce ff 
务 时 并 不 考虑 数据 本 地 化 。 

(8) 任务 执行 。TaskTracker 进程 启动 一 个 child 进程 来 执行 具体 任务 。 


9.3.5 Sqoop 抽取 历史 数据 到 HDFS 


基于 Sqoop 引擎 把 一 个 关系 型 数据 库 (如 MySQL, Oracle, SQLServer 等 ) 中 的 用 
户 数据 、 智 能 终端 运动 、 体 检 数 据 导入 Hadoop 的 HDFS 中 ， 具 体 步 又 如 下 : 

(1)MySQL 的 usertbl 表 和 sports 表 导 入 Hadoop 的 HDFS, 通 过 Sqoop 操作 Windows 
的 MySQL 的 usertbl 表 和 sports 表 。 在 SQL yog 下 执行 给 Sqoop 授权 后 ， 才 保证 在 集 
TE Linux 环境 下 可 以 操作 Windows 的 MySQL 的 所 有 表 , 192.168.106.1 地 址 是 开发 环境 
Eclipse 所 在 Windows 的 本 地 网 卡 地 址 ，192.168.106.111 地 址 是 伪 分 布 式 集群 Linux 环 
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境 下 的 Master 地 址 ， 只 有 同一 个 网 络 内 ， 可 以 实现 集群 环境 操作 本 地 MySQL 数据 库 。 
在 SQL yog 下 执行 命令 如 下 : 


GRANT ALL PRIVILEGES ON *.* TO 'root'68'192.168.106.111' IDENTIFIED BY 
'root' WITH GRANT OPTION;FLUSH PRIVILEGES; 


O) 在 伪 分 布 式 集群 Linux 环境 中 执行 语句 ， 数 据 导 入 aggregate /usertbl， 结 果 见 图 
9-3 所 示 ， 执 行 命令 如 下 : 


sqoop import --connect jdbc:mysql://192.168.106.1:3306/aggregate --username 
root --password root --table usertbl --target-dir '/aggregate/usertbl/"' 
--fields-terminated-by '\t' 


(3) 查看 进入 HDFS 的 usertbl 文件 的 数据 格式 命令 如 下 : 


Hadoop fs-cat/aggregate/usertbl/part-m-00000 


数据 导入 HDFS 成 功 ， 数 据 如 下 : 


1001 0526939 p939 null AppA;AppB;AppC;AppD 1 caompany939 test939 null null 
null 0 2018-05-05 14:58:13 null null 


(4) 在 虚拟 机 中 执行 语句 ， 数 据 导入 aggregate / sports， 执 行 命令 如 下 : 


sqoop import --connect jdbc:mysql://192.168.106.1:3306/aggregate --username 
root --password root --table sports --target-dir '/aggregate/sports/' 
--fields-terminated-by '\t' 


(5) 查看 进入 HDFS 的 usertbl 文件 的 数据 格式 命令 如 下 : 


Hadoop fs-cat/aggregate/usertbl/part-m-00000 


数据 导入 HDFS RH, Zia Fr STRIP A: 


398 p155 0526155 stepDetail AppA;AppB;AppC;AppD No8-2 0 2018-07-01 
09:33:00 2018-07-01 2018-07-01 09:53:16 null [("snp5":"768,3328,5888, 
8448,11008,13568,16128,18688,21248,23808,26368, 0") , ("knp5" : "3,103, 
459, 303, 403, 759, 603, 959, 803, 903, 1259, 1359") , ("1evel2p5":"10,10,10, 
10,10,10,10,10,10,10,10,0"),("level3p5":"0,0,0,0,0,0,0,0,0,0,0,0"), 
{"level4p5":"0,0,0,0,0,0,0,0,0,0,0,0"}, {"yuanp5":"0,0,0,0,0,0,0,0, 
0,0,0,0"}, {"hour":"2"}, {"measureTime":"2018-07-01"}] 1000 


(6) EIER usertbl AIR info, áp Wl TF: 


create 'usertbl, 'info' 


(7) RER usertbl AIR info， 命 令 如 下 : 


create 'sports, 'data' 
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图 9-3 MR 任务 执行 工程 


(8) 查看 已 经 导入 HDFS 的 文件 (网 址 : http://192.168.106.111:50070/)， 如 图 9-4 
所 示 。 


Browse Directory 


图 9-4 HDFS 上 数据 目录 展示 


(9) 查看 已 经 导入 HDFS 的 usertbl 文件 (网 址 : http://192.168.106.111:50070/explorer. 
html#/aggregate/usertbl)， 如 图 9-5 所 示 。 


e 


Browse Directory 


Permission Owner Grup Sae Last Modified. Replication  Biockie Name 


图 9-5 HDFS 上 用 户 数据 表 分 片 情况 
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(10) 查看 已 经 导入 HDFS 的 sports 文件 〈 网 址 : http://192.168.106.111:50070/explorer. 
html#/aggregate/sports), WE] 9-6 所 示 。 


e 


9-6 HDFS 上 智能 终端 运动 数据 表 分 片 情况 
CD 按照 如 上 方法 ， 把 sport 的 简要 包 和 详细 包 导 入 Hadoop。 
9.3.0 构建 工程 BD_CustomTransfer_ Maven 
数据 导入 微服 务工 程 架 构 如 图 9-7 所 示 。 


I$ Package Explorer 13 esl» "co 
4 (12) BD_CustomTransfer_Maven 
4 (9 src/main/java 
4 [B comicloud 
4 ji batchimport 
JJ) SportAnalysisjava 
|J) SportDataQueryjava 
IM SportsDatalmportjava 
|J) UsertblDatalmportjava 
4 jfi bean 
回 HBaseColumnjava 
JJ) HQueryjava 
I] SportsDatajava 
4 jfi dao 


F) HBaseTemplate java 

|J) SportsDataHbaseDao java 

I) SportsDataHbaseDaolmpljava 
4 jf util 

[J) DateUtiljava 

IJ) IsonUtiljava 


Œ src/main/resources 
加 src/test/java 

E src/test/resources 

má JRE System Library [JavaSE-1.8) 
BA Maven Dependencies 

© sre 

© target 

国 pom.ml 


9-7 ”数据 导入 微服 务工 程 架 构 


(1) 构建 工程 后 导入 数据 ， 把 usertbl 表 的 数据 从 HDFS 导入 HBase 的 usertbl 表 的 
info FE, REKRUT: 
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package com.cloud.batchImport; 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 


org.apache.hadoop.conf.Configuration; 
org.apache.hadoop.HBase.client.Put; 
org.apache.hadoop.HBase.mapreduce.TableOutputFormat; 
org.apache.hadoop.HBase.mapreduce.TableReducer; 
org.apache.hadoop.HBase.util.Bytes; 
org.apache.hadoop.io.LongWritable; 
org.apache.hadoop.io.NullWritable; 
org.apache.hadoop.io.Text; 
org.apache.hadoop.mapreduce.Counter; 
org.apache.hadoop.mapreduce.Job; 
org.apache.hadoop.mapreduce .Mapper; 
org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 


/* 数 据 格式 如 下 : 
* sqoop import --connect jdbc:mysql://192.168.106.1:3306/aggregate 
--username root --password root --table usertbl --target-dir 


'/aggregate/ usertbl/' --fields-terminated-by '\t' 

* usertbl 数据 格式 如 下 : 

* 1001 0526939 p939 null AppA;AppB;AppC;AppD 1 caompany939 test939 null 
null null 0 2018-05-05 14:58:13 null null 


t 


public class UsertblDataImport ( 
static class UsertblDataImportMapper extends 


Mapper<LongWritable, Text,LongWritable, Text> ( 
Text v2 = new Text (); 
protected void map (LongWritable key, Text value, Context context) 
throws java.io.IOException, InterruptedException { 
final String[] splited = value.toString()..split ("At"); 
try { 
String rowKey = splited[1]+splited[2]; 
v2.set (rowKey + "Xt" + value.toString()); 
context.write (key, v2); 
} catch (NumberFormatException e){ 
final Counter counter = context.getCounter 
("Usertbl DataImport", "ErrorFormat") ; 
counter.increment (1L); 
System.out.println("H4 HS" + splited[0] +" "+e. 
getMessage ()); 
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* obsDatetime, value, conceptId, patientId, conceptName 
* @author changyaobin 


EN 
static class UsertblDataImportReducer extends 
TableReducer<LongWritable, Text,NullWritable> { 
protected void reduce (LongWritable key, 
java.lang.Iterable<Text> values, Context context) 
throws java.io.IOException,InterruptedException { 
for (Text text:values) { 
final String[] splited = text.toString() .split ("\t"); 
final Put put = new Put (Bytes.toBytes (splited[0])); 
put .add (Bytes.toBytes ("info") ,Bytes.toBytes ("Id"), 
Bytes.toBytes (splited[1])); 
put .add (Bytes.toBytes ("info") ‚Bytes.toBytes ("deviceId"), 
Bytes.toBytes (splited[2])); 
put.add (Bytes.toBytes ("info") Bytes.toBytes ("patientID"), 
Bytes.toBytes (splited[3])); 
put.add (Bytes.toBytes ("info") ‚Bytes.toBytes ("deviceType"), 
Bytes.toBytes (splited[4])); 
put .add (Bytes.toBytes ("info") ‚Bytes.toBytes ("appType"), 
Bytes.toBytes (splited[5])); 
put.add (Bytes.toBytes ("info") ‚Bytes.toBytes 
("device UseFlag"), 
Bytes.toBytes (splited[6])); 
put .add (Bytes.toBytes ("info") ‚Bytes.toBytes ("company"), 
Bytes.toBytes (splited[7])); 
Put .add (Bytes.toBytes ("info") Bytes.toBytes ("pname"), 
Bytes.toBytes (splited[8])); 
put.add (Bytes.toBytes ("info") Bytes.toBytes ("email"), 
Bytes.toBytes (splited[9])); 
put.add(Bytes.toBytes ("info") , Bytes .toBytes ("teamName") , 
Bytes.toBytes (splited[10])); 
put .add (Bytes.toBytes ("info") Bytes.toBytes 
("company Name"), 
Bytes.toBytes (splited[11])); 
put .add (Bytes.toBytes ("info") Bytes.toBytes 
("isActivate"), 
Bytes.toBytes (splited[12])); 
put .add (Bytes.toBytes ("info") ‚Bytes.toBytes ("laseTime"), 
Bytes.toBytes (splited[13])); 
put .add (Bytes.toBytes ("info") ,Bytes.toBytes 
("modifyTime"), 
Bytes.toBytes (splited[14])); 
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put.add (Bytes.toBytes ("info") Bytes.toBytes ("ywId"), 
Bytes.toBytes (splited[15])); 
context.write (NullWritable.get (),put); 


} 

public static void main(String[] args)throws Exception { 
final Configuration configuration = new Configuration (); 
// 1.148 ZooKeeper 
configuration.set ("HBase.zookeeper.quorum", "hadoop") ; 
// 2. 设置 HBase KAM 
configuration.set (TableOutputFormat.OUTPUT TABLE, "usertbl"); 
// 3. 将 该 值 改 大 ,防止 client 连接 ZK 超时 退出 s 
configuration.set ("dfs.socket.timeout", "180000"); 
final Job job = new Job (configuration, "UsertblDataImport") ; 
job.setMapperClass (UsertblDataImportMapper.class); 
job.setReducerClass (UsertblDataImportReducer.class); 
// 4.304 map 的 输出 ,不 设置 reduce 的 输出 类 型 
job.setMapOutputKeyClass (LongWritable.class); 
job.setMapOutputValueClass (Text.class); 
job.setInputFormatClass (TextInputFormat.class); 
// 5. 不 再 设置 输出 路 径 , 而 是 设置 输出 格式 类 型 s 
job.setOutputFormatClass (TableOutputFormat.class); 
FileInputFormat.setInputPaths (job, "hdfs://192.168.106.111:9000/ 

aggregate/usertbl"); 

/1 6. 提 交 作业 任务 到 集群 


job.waitForCompletion (true); 


} 


(2) 导入 数据 ， 把 sprots 表 的 数据 从 hdfs 导入 HBase 的 sports 表 的 data HE, 4X 
码 实现 如 下 : 


package com.cloud.batchImport; 


import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.HBase.client.Put; 

import org.apache.hadoop.HBase.mapreduce.TableOutputFormat; 
import org.apache.hadoop.HBase.mapreduce.TableReducer; 
import org.apache.hadoop.HBase.util.Bytes; 

import org.apache.hadoop.io.LongWritable; 

import org.apache.hadoop.io.NullWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Counter; 

import org.apache.hadoop.mapreduce.Job; 


* 367 * 


. 
天 数据 架构 之 道 与 项 目 实 成 了 


import org.apache.hadoop.mapreduce.Mapper; 
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
import com.cloud.util.DateUtil; 
fs 
* sqoop import --connect jdbc:mysql://192.168.106.1:3306/aggregate 
--username root --password root --table sports --target-dir 
'/aggregate/ sports/' --fields-terminated-by '\t' 
数据 格式 如 下 : 
398 p155 0526155 stepDetail AppA;AppB;AppC;AppD No8-2 0 
2018-07-01 09:33:00 2018-07-01 2018-07-01 09:53:16 null 
[("snp5":"768,3328,5888,8448,11008,13568,16128,18688,21248,23808, 
26368,0"}, 
* ("knp5":"3,103,459,303, 403, 759, 603, 959, 803, 903,1259,1359"}, 
* ("level2p5":"10,10,10,10,10,10,10,10,10,10,10,0"), 
* {"level3p5":"0,0,0,0,0,0,0,0,0,0,0,0"}, {"level4p5":"0,0,0,0,0,0,0, 
0,0,0,0,0"}, 
* ("yuanp5":"0,0,0,0,0,0,0,0,0,0,0,0"),("hour":"2"), ("measureTime": 
72018-09g-0vU"pT 
* i 0 0 0 
* 
=/ 
public class SportsDataImport { 
static class SimpleDataImportMapper extends 


+ +*+ 


Mapper<LongWritable, Text,LongWritable, Text> { 
Text v2 = new Text (); 
protected void map (LongWritable key, Text value, Context context) 
throws java.io.IOException,InterruptedException { 
final String[] split = value.toString() .split ("Xt"); 
try { 
String phone = split[2].trim(); 
String deviceld = split[3].trim(); 
String dataType = split[4].trim(); 
String time = split[7].trim(); 
String receiveTime = DateUtil.dateToString (time) ; 
String rowKey = phone + " " + deviceId + " " + dataType 
+ " "+ receiveTime; 
String val = value.toString(); 
v2.set (rowKey + "Nt" + value.toString()); 
context .write (key, v2); 
} catch (Exception e) { 
final Counter counter = context.getCounter 
("SimpleData Import", "ErrorFormat") ; 


counter. increment (1L); 
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System.out.pPrintln(" 出 错 了 "” + split[0] +" "+e. 
getMessage ()); 


* obsDatetime, value, conceptId, patientId, conceptName 
* (author ulove 


*/ 
static class SimpleDataImportReducer extends 
TableReducer<LongWritable, Text,NullWritable> { 
protected void reduce (LongWritable key, 
java.lang.Iterable<Text> values, Context context) 
throws java.io.IOException, InterruptedException { 
for (Text text:values) { 
final String[] splited = text.toString() .split ("\t"); 
final Put put = new Put (Bytes.toBytes (splited[0])); 
put.add (Bytes.toBytes ("data") ‚Bytes.toBytes ("Id"), 
Bytes.toBytes (splited[1])); 
put.add (Bytes.toBytes ("data") ‚Bytes.toBytes ("phone"), 
Bytes.toBytes (splited[2])); 
put .add (Bytes.toBytes ("data") ‚Bytes.toBytes ("deviceId"), 
Bytes.toBytes (splited[3])); 
put .add (Bytes .toBytes ("data") ‚Bytes.toBytes ("dataType"), 
Bytes.toBytes (splited[4])); 
put.add (Bytes.toBytes ("data") ‚Bytes.toBytes ("appType"), 
Bytes.toBytes (splited[5])); 
put.add (Bytes.toBytes ("data") , Bytes .toBytes ("pname"), 
Bytes.toBytes (splited[6])); 
put.add (Bytes.toBytes ("data") ‚Bytes.toBytes ("sendFlag"), 
Bytes.toBytes (splited[7])); 
put.add (Bytes.toBytes ("data") ‚Bytes.toBytes 
("receive Time"), 
Bytes.toBytes (splited[8])); 
Put .add (Bytes .toBytes ("data") ‚Bytes.toBytes ("realTime"), 
Bytes.toBytes (splited[9])); 
put .add (Bytes .toBytes ("data") ‚Bytes.toBytes ("sendTime"), 
Bytes.toBytes (splited[10])); 
put . add (Bytes.toBytes ("data") , Bytes .toBytes 
("device Type"), 
Bytes.toBytes (splited[11])); 
put .add (Bytes.toBytes ("data") Bytes.toBytes ( 
"dataValue"), 
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} 


(3) 导入 数据 ,把 sprots 表 的 数据 从 HDFS 导入 HBase 的 sports HY sort Flik, 为 


Bytes.toBytes (splited[12])); 
put.add (Bytes.toBytes ("data") ‚Bytes.toBytes ("AppA 
flag") Bytes.toBytes (splited[13])); 
put.add (Bytes.toBytes ("data") ‚Bytes.toBytes ("AppB 
flag"), 
Bytes.toBytes (splited[14])); 
put.add (Bytes.toBytes ("data") ‚Bytes.toBytes ("AppC 
flag"), 
Bytes.toBytes (splited[15])); 
put.add (Bytes.toBytes ("data") ‚Bytes.toBytes ("AppD 
flag"), 
Bytes.toBytes (splited[16])); 
context.write (NullWritable.get (),put); 


public static void main(String[] args)throws Exception { 


final Configuration configuration = new Configuration (); 

// 1. E ZooKeeper 

configuration.set ("HBase.zookeeper.quorum", "hadoop") ; 

// 2. HBase KAM 

configuration.set(TableOutputFormat.OUTPUT TABLE, "sports"); 

11 3. 将 该 值 改 大 , 防止 client 连接 zk 超时 退出 s 

configuration.set ("dfs.socket.timeout","180000") ; 

final Job job = new Job(configuration, "SportsDataImport"); 

job.setMapperClass (SimpleDataImportMapper.class) ; 

job.setReducerClass (SimpleDataImportReducer.class) ; 

// 4. 设 置 map 的 输出 ,不 设置 reduce 的 输出 类 型 

job.setMapOutputKeyClass (LongWritable.class); 

job.setMapOutputValueClass (Text.class); 

job.setInputFormatClass (TextInputFormat.class); 

// 5. 不 再 设置 输出 路 径 , 而 是 设置 输出 格式 类 型 = 

job.setOutputFormatClass (TableOutputFormat.class); 

FileInputFormat .setInputPaths (job, "hdfs://192.168.106.111:9000/ 
aggregate/sports") ; 

job.waitForCompletion (true) ; 


后 续 统 计 步 数 做 好 准备 。 代 码 实现 如 下 : 


package com.cloud.batchImport; 


import org.apache.hadoop.conf.Configuration; 
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import org.apache.hadoop.HBase.client.Put; 

import org.apache.hadoop.HBase.mapreduce.TableOutputFormat; 

import org.apache.hadoop.HBase.mapreduce.TableReducer; 

import org.apache.hadoop.HBase.util.Bytes; 

import org.apache.hadoop.io.LongWritable; 

import org.apache.hadoop.io.NullWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Counter; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 

import com.cloud.util.DateUtil; 

import com.cloud.util.JsonUtil; 

import net.sf.json.JSONArray; 

/* 

* sqoop import --connect jdbc:mysql://192.168.106.1:3306/aggregate 
--username root --password root --table sports --target-dir 
'/aggregate/ sports/' --fields-terminated-by '\t' 

* 数据 格式 如 下 : 

355 p898 0526898 stepCount AppA; AppB; AppC; AppD No8-1 0 2018-07-01 09:33:00 
2018-07-01 09:33:00 2018-07-01 09:53:06 null 

[{"stepSum":"526899000"}, {"calSum":"526899000"}, 

{"distanceSum":"3161394"}, {"yxbsSum":"0"}, {"weight":"70"}, 

{"stride":"70"}, {"degreeOne":"52220"}, {"degreeTwo":"52220"}, 

{"degreeThree":"52220"}, {"degreeFour":"52220"}, {"uploadType":"1"}, 

{"measureTime":"2018-07-01 09:33:00"}] T 0 0 0 

yf 

public class SportAnalysis { 
static class SportAnalysisMapper extends Mapper<LongWritable, Text, 


LongWritable,Text» { 


Text rowData = new Text(); 
protected void map (LongWritable key, Text value, Context context) 
throws java.io.IOException, InterruptedException { 
final String[] split = value.toString() .split ("Mt"); 
try { 
String stepSum = ""; 
String phone = split[2].trim(); 
String deviceld = split[3].trim(); 
String dataType = split[4].trim(); 
String time = split[7].trim(); 
String receiveTime = DateUtil.dateToString (time); 
String rowKey = phone + " " + deviceld + " " + dataType 
+ ene receivefime; 


String stepData = split[11].trim(); 


e yq A 
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if ("stepCount".equals (split[3].trim())){ 
JSONArray ja = JSONArray.fromObject (stepData) ; 
stepSum = JsonUtil.getJsonParamterString 
(ja-getJSONObject (0) , "stepSum") ; 
rowData.set(rowKey + "Mt" + value.toString()* "Nt" + 
stepSum) ; 
System.out.println (rowData) ; 
context .write (key, rowData) ; 
} 
} catch (Exception e) { 
final Counter counter = context.getCounter 
("Simple DataImport", "ErrorFormat") ; 
counter.increment (1L); 
System.out.printiIn("H#7" + split[0] +" "+e. 
getMessage ()); 


er 
* obsDatetime, value, conceptId, patientId, conceptName 


* @author changyaobin 
* 


*/ 
static class SportAnalysisReducer extends TableReducer<Long Writable, 
Text,NullWritable> { 
protected void reduce (LongWritable key, java. lang. Iterable<Text> 
values,Context context) 
throws java.io. IOException, InterruptedException { 
for (Text text:values) { 
final String[] splited = text.toString().split("\t"); 
final Put put = new Put (Bytes.toBytes (splited[0])); 
put .add (Bytes.toBytes ("sort") ,Bytes.toBytes ("Id"), 
Bytes. toBytes (splited[1])); 
put .add (Bytes.toBytes ("sort") , Bytes. toBytes ("phone"), 
Bytes. toBytes (splited[2])); 
put .add (Bytes. toBytes ("sort") , Bytes. toBytes ("deviceId"), 
Bytes. toBytes (splited[3])); 
put .add (Bytes. toBytes ("sort") , Bytes.toBytes ("dataType"), 
Bytes.toBytes (splited[4])); 
put .add (Bytes. toBytes ("sort") , Bytes. toBytes ("appType") , 
Bytes.toBytes (splited[5])); 
put . add (Bytes.toBytes ("sort") Bytes.toBytes ("pname"), 
Bytes.toBytes (splited[6])); 
put.add (Bytes.toBytes ("sort") Bytes.toBytes ("sendFlag"), 
Bytes.toBytes (splited[7])); 
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put.add (Bytes.toBytes ("sort") ‚Bytes.toBytes 
("receive Time") ,Bytes.toBytes (splited[8])); 

put .add (Bytes.toBytes ("sort") ‚Bytes.toBytes ("realTime"), 
Bytes.toBytes (splited[9])); 

put.add (Bytes .toBytes ("sort") ‚Bytes.toBytes ("sendTime"), 
Bytes.toBytes (splited[10])); 

put .add (Bytes.toBytes ("sort") ,Bytes.toBytes 
("device Type") Bytes.toBytes (splited[11])); 

put .add (Bytes.toBytes ("sort") , Bytes.toBytes ("dataValue"), 
Bytes.toBytes (splited[12])); 

put .add (Bytes.toBytes ("sort") Bytes.toBytes ("AppA 
flag"), Bytes.toBytes (splited[13])); 

put .add (Bytes.toBytes ("sort") Bytes.toBytes ("AppB 
flag") Bytes.toBytes (splited[14])); 

put.add (Bytes.toBytes ("sort") ‚Bytes.toBytes ("AppC 
flag") Bytes.toBytes (splited[15])); 

put.add (Bytes.toBytes ("sort") Bytes.toBytes ("AppD_ 
flag") ‚Bytes.toBytes (splited[16])); 

put.add (Bytes.toBytes ("sort") Bytes.toBytes ("stepSum"), 
Bytes.toBytes (splited[17])); 

context .write (NullWritable.get (),put); 


public static void main(String[] args)throws Exception ( 

final Configuration configuration = new Configuration (); 

// 1. WE ZooKeeper 

configuration.set ("HBase.zookeeper.quorum", "hadoop") ; 

// 2. 设置 HBase KAM 

configuration.set (TableOutputFormat.OUTPUT TABLE, 
"sports Analysis"); 

// 3. 将 该 值 改 大 ,防止 client 连接 ZK 超时 退出 s 

configuration.set("dfs.socket.timeout","180000"); 

final Job job - new Job(configuration, "SportAnalysis"); 

job.setMapperClass (SportAnalysisMapper.class) ; 

job.setReducerClass (SportAnalysisReducer.class) ; 

// 4. 设置 map 的 输出 ,不 设置 reduce 的 输出 类 型 

job.setMapOutputKeyClass (LongWritable.class); 

job.setMapOutputValueClass (Text.class); 

job.setInputFormatClass (TextInputFormat.class); 

// 5. 不 再 设置 输出 路 径 , 而 是 设置 输出 格式 类 型 s 

job.setOutputFormatClass (TableOutputFormat.class); 

FileInputFormat.setInputPaths (job, "hdfs://192.168.106.111: 
9000/aggregate/sports"); 
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. 
天 数据 架构 之 道 与 项 目 实 成 了 


job.waitForCompletion (true) ; 


} 
9.3.7 智能 终端 运动 数据 从 MySQL 数据 迁移 到 Hive 
(1) 创建 用 户 表 usertbl 在 Hive 中 ， 代 码 实现 如 下 : 


create table usertbl (id int,deviceID String,patientID String, deviceType 


String,appType String,deviceUseFlag String,company String, pname 
String, email String,teamName String,companyName String,isActivate 
String,lastTime String,modifyTime String, ywId String)row format 
delimited fields terminated by '\t' stored as textfile; 


(2) 加 载 数据 到 Hive 中 ， 代 码 实现 如 下 : 


hive->load data local inpath '/aggregate/sports' overwrite into table 
sports 

hive->load data local inpath '/aggregate/usertbl' overwrite into table 
usertbl 

hive->dfs -1s /usr/local/data 

hive-->select * from sports; 


(3) 迁移 体检 数据 到 HDFS 之 后 ， 再 导入 Hive 中 ， 代 码 实现 如 下 : 


sqoop import --connect jdbc:mysql://192.168.106.1:3306/storage --username 
root --password root --table physical check --target-dir '/aggregate/ 
physical check/' --fields-terminated-by '\t' 
create table physical check 


CHECK_ID dnb, 

CARD NO String, 
REG DATE String, 
CLINIC CODE String, 
SEX CODE String, 
PAYKIND CODE String, 
PACT CODE String, 
PACT NAME String, 
REGLEVL CODE String, 
REGLEVL NAME String, 
DEPT CODE String, 
DEPT NAME String, 
DOCT CODE String, 
DOCT NAME String, 
YNSEE String, 
IN SOURCE String, 
ADDRESS CODE String, 
ADDRESS NAME String, 
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(4) f£ root 目录 执行 ， 加 载 HDFS 的 文件 命令 : 


加 载 Linux 本 地 的 文件 命令 : 


启动 MYSQL， 存放 了 Hive 文件 的 元 数据 ， 命 令 如 下 : 


查询 数据 ， 命 令 如 下 : 
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select * from physical check; 
94 项 目 小 结 


自 定义 数据 迁移 服务 引擎 的 主流 大 数据 工具 就 是 Sqoop 引擎 ， 它 从 关系 型 数据 库 
(如 MySQL、Oracle、SQLServer 等 ) 中 的 用 户 和 业务 数据 导入 Hadoop 的 HDFS 中 之 
后 ， 设 计 好 HBase 的 表 Rowkey 和 列 簇 ， 并 进行 数据 清洗 后 迁移 到 HBase FE, AER 
用 了 HBaseTemplete 主流 类 ， 核 心 是 编写 Dao 层 接口 定义 和 实现 ， 最 后 讲解 了 历史 数 
据 迁 移 到 Hive， 为 数据 智能 分 析 和 数据 建 模 做 好 准备 。 

1. 理论 知识 点 

(1) Hadoop 主要 解决 的 是 分 布 式 环境 下 的 数据 存储 、 并 行 计算 和 资源 协同 管理 问题 ， 
核心 价值 是 能 高 效 组 织 一 大 批 廉价 机 器 构建 分 布 式 环境 来 协同 存储 和 处 理 海量 数据 。 

(2) HDFS: 主 节点 NameNode 的 职责 是 管理 文件 所 在 目录 及 对 应 的 block 位 置 ， 
DataNode 负责 实际 数据 的 存储 。 

(3) MapReduce 框架 解决 了 并 行 数据 处 理 下 的 分 布 式 存 储 、 任 务 调度 、 负 载 均衡 、 
容错 机 制 、 容 错 处 理 等 核心 技术 问题 。 

(4) YARN 核心 思想 是 将 MapReduce 中 的 JobTracker 的 资源 管理 和 作业 调度 两 个 职 
责 分 别 由 ResourceManage 资源 管理 器 和 ApplicationMaster 应 用 管理 进程 来 实现 。 

(5) HBase 是 一 个 基于 HDFS 进行 NoSQL 存储 模型 的 列 式 KV 数据 库 ， 有 具备 高 可 
伸缩 、 高 可 靠 性 、 高 性 能 、 分 布 式 等 特点 。 要 理解 HMaster 和 HRegionServer 的 职责 。 

(6) Hive 是 为 了 处 理 海量 数据 的 离线 统计 而 生 。Hive 相当 于 SQL 任务 转化 为 
Mapdeduce 并 行 任务 。 

(7) ZooKeeper 是 一 个 开放 源码 的 分 布 式 集群 协调 器 ， 主 要 用 于 解决 分 布 式 应 用 
中 的 统一 命名 服务 、 状 态 同 步 服务 、 集 群 管理 、 配 置 项 管理 等 问题 。 要 理解 ZooKeeper 
的 职责 。 

(8) 要 理解 MapReduce 的 工作 流程 。 

(9) Sqoop 是 负责 把 Hadoop 和 关系 型 数据 库 中 的 数据 相互 转移 的 工具 。 

2. 实战 知识 点 

(1) Sqoop 引擎 把 一 个 关系 型 数据 库 Cl MySQL. Oracle, SQLServer 等 ) 中 的 用 
户 数据 、 运 动 、 体 检 数 据 导 入 Hadoop 的 HDFS 中 。 

(2) 借助 MR 工具 ， 把 用 户 数据 、 运 动 、 体 检 数 据 从 HDFS 导入 HBase 中 。 

(3) HBase 数据 库 建立 和 Rowkey 的 创建 方法 。 

(4) 借助 Hive 工具 ， 把 用 户 数据 、 运 动 、 体 检 数 据 从 HDFS 导入 Hive 中 。 
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